Metin madenciliği, çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (İngilizce: data mining) çalışmasıdır. Diğer bir tanımla metin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği, metinlerin , (İngilizce: clustering), (İngilizce: concept/entity extraction), metinler için sınıf taneciklerinin üretilmesi (İngilizce: production of granular taxonomy), metinlerde yapılması (İngilizce: sentimental analysis), çıkarılması (İngilizce: document summarization) ve metinin özü ile ilgili ilişki modellemesi (İngilizce: entity relationship modelling) gibi çalışmaları hedefler.
Yukarıdaki hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon getirimi (İngilizce: information retrieval), hece analizi (İngilizce: lexical analysis), kelime frekans dağılımı (İngilizce: word requency distribution), örüntü tanıma (İngilizce: pattern recognition), (İngilizce: tagging), enformasyon çıkarımı (İngilizce: information extraction), veri madenciliği (İngilizce: data mining) ve hatta görselleştirme (İngilizce: visualization) gibi yöntemleri kullanmaktadır.
Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme (İngilizce: natural language processing, NLP) çalışmaları ile çoğu zaman beraber yürütülmektedir. Doğal dil işleme çalışmaları daha çok yapay zeka altındaki dil bilim bilgisine dayalı çalışmaları kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatistiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır.
Tarihçe
İnsan-yoğun elle metin madenciliği çalışmalarının 1980'lerin ortalarında başladığı söylenebilir, ancak teknolojik gelişmelerin ışığında konu 2000'lerden sonra parlamıştır. Metin madenciliği bir çalışma alanı olup , veri madenciliği, makine öğrenmesi, istatistik ve kavramlarının ortak çalışma alanıdır. Günümüzde enformasyonun büyük kısmı (bilimsel tahminlere göre %80'lik kısmı) metin olarak tutulmaktadır. Bu yüzden metin madenciliği çalışmalarının yüksek ekonomik değeri olduğu ve olacağı söylenebilir. Ayrıca çok dilli veri madenciliği gibi farklı dillerden aynı özellikleri taşıyan değerlerin çıkarılması da güncel konulardandır.
Genelde, metin madenciliği çalışmalarının çözüm aradığı zorluk, yüksek miktardaki yapılandırılmamış verinin, yapısal bir hale dönüştürülmesidir.İş zekası çalışmalarının ilk yayınlarında, aşağıdaki şekilde tanımlandığı görülebilir:
"... makinelerin metinler üzerinde otomatik-özetleme veya otomatik-kodlama gibi işletmelerin ilgilendiği 'eylem noktalarını' ilgi çekici profiller haline getiren veri-işlem'den faydalanmaktır. Hem dışarıdan alınan hem de içeriden üretilen dökümanlar otomatik olarak özetlenebilir, kelime örüntülerine göre yorumlanabilir ve uygun işlere otomatik olarak yönlendirilebilir.
Her ne kadar enformasyon sistemleri 1960'larda başlasa da, iş zekası kavramının yazılım dünyasında kabul gören bir kategori haline dönüşmesi 80'ler ve 90'larda başlamıştır. Ardından metinin 'yapısız' özelliğinden dolayı işlenmesi zor bir hedef olarak seçilmesi ve metin analiz çalışmalarının başarısı için algoritmaların geliştirilmesi 1990'ların sonunu bulmuştur. Prof. Marti A. Hearst, 'Untangling Text Data Mining' başlıklı makalesinde bu konudan detaylıca bahseder.
Neredeyse 10 yıllık bir süreçte, işlenebilir dilbilim camiası, büyük metin kümelerini daha iyi bir metin analiz algoritması bulmak için inceledi. Bu makalede, yeni bir yaklaşım sunmak istiyorum: Büyük çevrimiçi metin birikimlerini dünyanın kendisi ile ilgili gerçekleri keşfetmek için kullanmayı öneriyorum. Bu önerimin arkasında, tamamen yapay zeka ile metin analizi yapan ve hatta işlemsel olarak veya kullanıcılar tarafından yönlendirilen analizlerin ötesinde, heyecan verici yeni bir kapı açmak isteği vardır.
Hearst'ün 1999 yılındaki bu makalesinden 10 yıl kadar sonra, metin madenciliği çalışmaları kabul gören ve çok sayıda uygulama alanı olan bir dünyaya dönüşmüştü.
Uygulama Alanları
Metin madenciliği çalışmaları genelde devlet seviyesi, bilimsel araştırma ve iş dünyası ihtiyaçları için çeşitli çözümler sunmaktadır. Bu amaçlardan bazıları aşağıdaki şekilde sıralanabilir:
- Kurumsal İş Zekası, Veri Madenciliği ve Rekabet Zekası (İngilizce: Competitive Intelligence)
- E-Keşif, Kayıt Yönetimi
- Ulusal Güvenlik ve İstihbarat
- Özellikle beşeri bilimler başta olmak üzere bilimsel metinlerin işlenmesi
- Duygusal Analiz Araçları
- Doğal Dil / Anlambilimsel araç veya hizmetler
- Yayıncılık
- Otomatik reklam yerleştirme
- Arama / Bilgi Erişimi
- Sosyal medya gözetlemesi
Kaynakça
- ^ Şadi Evren Şeker, Khaled Al-Naami, Sentimental Analysis on Turkish Blogs via Ensemble Classifier, (DMIN'13), Proceedings of the 2013 International Conference on Data Mining, ISBN=1-60132-239-9, pp. 10-16, 2013
- ^ Şadi Evren Şeker. . MISSozluk. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014.
- ^ . 13 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014.
- ^ . 18 Şubat 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Kasım 2016.
- ^ "Arşivlenmiş kopya". 8 Aralık 2017 tarihinde kaynağından . Erişim tarihi: 15 Haziran 2014.
- ^ Hearst, Marti A. (1999). Untangling text data mining"Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics". ss. 3-10. doi:10.3115/1034678.1034679. ISBN .
Dış bağlantılar
- en:Text Mining
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Metin madenciligi calismalari metni veri kaynagi olarak kabul eden veri madenciligi Ingilizce data mining calismasidir Diger bir tanimla metin uzerinden yapisallastirilmis veri elde etmeyi amaclar Metin madenciligi metinlerin Ingilizce clustering Ingilizce concept entity extraction metinler icin sinif taneciklerinin uretilmesi Ingilizce production of granular taxonomy metinlerde yapilmasi Ingilizce sentimental analysis cikarilmasi Ingilizce document summarization ve metinin ozu ile ilgili iliski modellemesi Ingilizce entity relationship modelling gibi calismalari hedefler Yukaridaki hedeflere ulasilmasi icin metin madenciligi calismalari kapsaminda enformasyon getirimi Ingilizce information retrieval hece analizi Ingilizce lexical analysis kelime frekans dagilimi Ingilizce word requency distribution oruntu tanima Ingilizce pattern recognition Ingilizce tagging enformasyon cikarimi Ingilizce information extraction veri madenciligi Ingilizce data mining ve hatta gorsellestirme Ingilizce visualization gibi yontemleri kullanmaktadir Metin madenciligi calismalari metin kaynakli literaturdeki diger bir calisma alani olan dogal dil isleme Ingilizce natural language processing NLP calismalari ile cogu zaman beraber yurutulmektedir Dogal dil isleme calismalari daha cok yapay zeka altindaki dil bilim bilgisine dayali calismalari kapsamaktadir Metin madenciligi calismalari ise daha cok istatistiksel olarak metin uzerinden sonuclara ulasmayi hedefler Metin madenciligi calismalari sirasinda cogu zaman dogal dil isleme kullanilarak ozellik cikarimi da yapilmaktadir TarihceInsan yogun elle metin madenciligi calismalarinin 1980 lerin ortalarinda basladigi soylenebilir ancak teknolojik gelismelerin isiginda konu 2000 lerden sonra parlamistir Metin madenciligi bir calisma alani olup veri madenciligi makine ogrenmesi istatistik ve kavramlarinin ortak calisma alanidir Gunumuzde enformasyonun buyuk kismi bilimsel tahminlere gore 80 lik kismi metin olarak tutulmaktadir Bu yuzden metin madenciligi calismalarinin yuksek ekonomik degeri oldugu ve olacagi soylenebilir Ayrica cok dilli veri madenciligi gibi farkli dillerden ayni ozellikleri tasiyan degerlerin cikarilmasi da guncel konulardandir Genelde metin madenciligi calismalarinin cozum aradigi zorluk yuksek miktardaki yapilandirilmamis verinin yapisal bir hale donusturulmesidir Is zekasi calismalarinin ilk yayinlarinda asagidaki sekilde tanimlandigi gorulebilir makinelerin metinler uzerinde otomatik ozetleme veya otomatik kodlama gibi isletmelerin ilgilendigi eylem noktalarini ilgi cekici profiller haline getiren veri islem den faydalanmaktir Hem disaridan alinan hem de iceriden uretilen dokumanlar otomatik olarak ozetlenebilir kelime oruntulerine gore yorumlanabilir ve uygun islere otomatik olarak yonlendirilebilir Her ne kadar enformasyon sistemleri 1960 larda baslasa da is zekasi kavraminin yazilim dunyasinda kabul goren bir kategori haline donusmesi 80 ler ve 90 larda baslamistir Ardindan metinin yapisiz ozelliginden dolayi islenmesi zor bir hedef olarak secilmesi ve metin analiz calismalarinin basarisi icin algoritmalarin gelistirilmesi 1990 larin sonunu bulmustur Prof Marti A Hearst Untangling Text Data Mining baslikli makalesinde bu konudan detaylica bahseder Neredeyse 10 yillik bir surecte islenebilir dilbilim camiasi buyuk metin kumelerini daha iyi bir metin analiz algoritmasi bulmak icin inceledi Bu makalede yeni bir yaklasim sunmak istiyorum Buyuk cevrimici metin birikimlerini dunyanin kendisi ile ilgili gercekleri kesfetmek icin kullanmayi oneriyorum Bu onerimin arkasinda tamamen yapay zeka ile metin analizi yapan ve hatta islemsel olarak veya kullanicilar tarafindan yonlendirilen analizlerin otesinde heyecan verici yeni bir kapi acmak istegi vardir Hearst un 1999 yilindaki bu makalesinden 10 yil kadar sonra metin madenciligi calismalari kabul goren ve cok sayida uygulama alani olan bir dunyaya donusmustu Uygulama AlanlariMetin madenciligi calismalari genelde devlet seviyesi bilimsel arastirma ve is dunyasi ihtiyaclari icin cesitli cozumler sunmaktadir Bu amaclardan bazilari asagidaki sekilde siralanabilir Kurumsal Is Zekasi Veri Madenciligi ve Rekabet Zekasi Ingilizce Competitive Intelligence E Kesif Kayit Yonetimi Ulusal Guvenlik ve Istihbarat Ozellikle beseri bilimler basta olmak uzere bilimsel metinlerin islenmesi Duygusal Analiz Araclari Dogal Dil Anlambilimsel arac veya hizmetler Yayincilik Otomatik reklam yerlestirme Arama Bilgi Erisimi Sosyal medya gozetlemesiKaynakca Sadi Evren Seker Khaled Al Naami Sentimental Analysis on Turkish Blogs via Ensemble Classifier DMIN 13 Proceedings of the 2013 International Conference on Data Mining ISBN 1 60132 239 9 pp 10 16 2013 Sadi Evren Seker MISSozluk 5 Mart 2016 tarihinde kaynagindan arsivlendi Erisim tarihi 15 Haziran 2014 13 Subat 2015 tarihinde kaynagindan arsivlendi Erisim tarihi 15 Haziran 2014 18 Subat 2017 tarihinde kaynagindan arsivlendi Erisim tarihi 9 Kasim 2016 Arsivlenmis kopya 8 Aralik 2017 tarihinde kaynagindan Erisim tarihi 15 Haziran 2014 Hearst Marti A 1999 Untangling text data mining Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics ss 3 10 doi 10 3115 1034678 1034679 ISBN 1 55860 609 2 Dis baglantilaren Text Mining