Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin (cümle ya da belge gibi bir metin) kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası göz ardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.
Kelime çantası modeli belge sınıflandırma yöntemlerinde yaygınca kullanılır: her kelimenin oluşu (sıklığı) bir sınıflandırıcının eğitilmesinde özellik olarak kullanılır.
Kelime çantasına dilbilimsel bağlamda erken bir atıf Zellig Harris'in Dağıtımsal Yapı üzerine 1954 makalesinde bulunabilir.
Örnek
Burada bir metin belgesini kelime çantası kullanarak modelliyoruz.
İşte iki tane basit metin belgesi:
(1) Can film seyretmeyi sever. Meryem de filmleri sever.
(2) Can futbol maçı seyretmeyi de sever.
Bu iki metin belgesine dayanarak şöyle bir liste oluşturulur:
[ "Can", "film", "futbol", "maçı", "seyretmeyi", "sever", "Meryem", "de", "filmleri" ]
Uygulama
Pratik kullanımda kelime çantası modeli çoğu zaman özellik üretme aracı olur.
Metni "kelime çantasın" dönüştürdükten sonra, metnin karakterini verecek çeşitli nicelikler hesaplayabiliriz. Kelime çantası modelinden hesaplanan en yaygın karakteristik tipi ya da özellik, terim sıklığıdır, yani o terimin metinde kaç kez geçtiğidir. Yukarıdaki örnekte her bir ayrı kelimenin terim sıklıklarını şu iki listeyi oluşturarak kaydedebiliriz.
(1) [1, 1, 0, 0, 1, 2, 1, 1, 1] (2) [1, 0, 1, 1, 1, 1, 0, 1, 0]
Listelerdeki her bir girdi listedeki mütekabil girdinin sayısını belirtir (buna histogram temsili de denir). Örneğin, birinci (belge 1'i temsil eden) listede, ilk iki girdi "1,2"dir. İlk girdi "Can" kelimesine tekabül eder, o da listedeki ilk kelimedir ve değeri "1"dir çünkü "Can" birinci belgede 1 kere geçer. Bunun gibi, ikinci girdi "film" kelimesine tekabül eder, o da listedeki ikinci kelmedir ve değeri "1"dir çünkü "film" ilk belgede 1 kere geçer. Bu liste (ya da vektör) temsili kelimelerin kaynak cümlelerdeki sırasını muhafaza etmez, bu da kelime çantası modelinin temel özelliğidir. Bu tür temsillerin birçok başarılı uygulaması vardır, örneğin e-posta filtreleme.
Fakat terim sıklıkları illaki en iyi metin temsili değildir. "O", "bir", "ve" gibi yaygın kelimeler neredeyse hep metindeki en yüksek terim sıklığına sahiptir, demek ki çok sayıda olmak tekabül eden kelimenin daha önemli olduğunu göstermez. Bu problemi ele alarak terim sıklıklarını "normalleştirmenin" en sevilen yollarından birisi, terimleri belge sıklığının tersiyle ağırlıklandırmaktır, buna da tf-idf denir. Buna ek olarak, sınıflandırma amacına yönelik belgenin sınıf etiketini dikkate alan süpervizeli alternatifler geliştirilmiştir. Son olarak, bazı problemlerde sıklıklar yerine ikili (varlık/yokluk ya da 1/0) ağırlıklar kullanılır. (Mesela WEKA makine öğrenmesi yazılım sisteminde bu seçenek konmuştur.)
N-gram modeli
Kelime çantası modeli sırasız bir belge temsilidir—kelimelerin sadece sayısına bakılır. Mesela yukarıdaki örnekte "Can film seyretmeyi sever. Meryem de filmleri sever", kelime çantası modeli bu metinde her cümlenin "sever" yüklemiyle bittiğini ortaya çıkarmayacaktır. Alternatif olarak, metindeki bu uzamsal enformasyonu saklamakta n-gram modeli kullanılabilir. Yukarıdaki aynı örneğe uygulanarak, bigram modeli metni şu birimlere çözdürecek ve her birimdeki terim sıklıklarını önceki gibi saklayacaktır.
[ "Can film", "film seyretmeyi", "seyretmeyi sever", "Meryem de", "de filmleri", "filmleri sever" ]
Kavram olarak kelime çantası modelini n-gram modelin n=1 için özel durumu gibi görebiliriz. Daha detaylı tartışma dil modelinde okunabilir.
Karım dolabı [Hashing trick]
Sözlük kullanımının yaygın bir alternatifi karım dolabıdır: kelimeler doğrudan bir karım işleviyle [hashing function] endekslere eşlenir. Kelimelerin endekslere bir karım işleviyle doğrudan eşlenmesiyle, sözlük saklayacak belleğe hiç gerek kalmaz. Karım çakışmaları olduğunda çoğu zaman boşaltılmış bellek kullanılarak karım kovalarının sayısı çoğaltılır. Pratikte, karım, kelime çantası modellerinin kodlanmasını müthiş basitleştirir ve ölçeklenebilirliğini geliştirir.
Örnek kullanım: spam süzgeci
Bayesci spam süzgecinde, e-posta mesajı iki olasılık dağılımının birinden seçilen kelimelerin sırasız derlemesi gibi modellenir: biri spamleri, öbürü meşru e-postaları ("ham") temsil eder. Kelimelerle dolu iki tane çanta hayal edin. Çantaların biri spam mesajlarda bulunan kelimelerle doludur, diğer çanta meşru e-postalarda bulunan kelimelerle doludur. Verilen herhangi bir kelimenin iki çantada da bulunması muhtemel olsa da, "spam" çantası "borsa", "Viagra", "satın al" gibi spamvari kelimeleri çok daha sıklıkla içerecektir, "ham" çantası ise kullanıcının arkadaşları ve işyeriyle ilgili kelimeleri daha çok içerecektir.
E-posta mesajını sınıflandırmak için, Bayesci spam süzgeci bu mesajın iki çantanın birinden rastgele dökülmüş bir kelimeler yığını olduğunu varsayar ve Bayesci olasılıkları kullanarak hangi çantanın daha muhtemel olduğunu belirler.
Kaynakça
- ^ a b Sivic, Josef (Nisan 2009). "Efficient visual search of videos cast as text retrieval" (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE. ss. 591-605. 22 Şubat 2016 tarihinde kaynağından (PDF). Erişim tarihi: 15 Ağustos 2016.
- ^ (1954). "Distributional Structure". Word. 10 (2/3). ss. 146-62.
And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use
- ^ Youngjoong Ko (2012). "A study of term weighting schemes using class information for text classification". . ACM.
- ^ Weinberger, K. Q.; Dasgupta A.; Langford J.; Smola A.; Attenberg, J. (2009). "Feature hashing for large scale multitask learning,". Proceedings of the 26th Annual International Conference on Machine Learning. ss. 1113-1120. arXiv:0902.2206 $2.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Kelime cantasi modeli dogal dil isleme ve enformasyon getiriminde kullanilan basitlestirici bir temsildir Bu modelde bir metin cumle ya da belge gibi bir metin kelimelerinin cantasi coklukumesi halinde temsil edilir coksallik tutulurken gramer ve hatta kelime sirasi goz ardi edilir Kelime cantasi modeli bilgisayarla gormede de kullanilmistir Kelime cantasi modeli belge siniflandirma yontemlerinde yayginca kullanilir her kelimenin olusu sikligi bir siniflandiricinin egitilmesinde ozellik olarak kullanilir Kelime cantasina dilbilimsel baglamda erken bir atif Zellig Harris in Dagitimsal Yapi uzerine 1954 makalesinde bulunabilir OrnekBurada bir metin belgesini kelime cantasi kullanarak modelliyoruz Iste iki tane basit metin belgesi 1 Can film seyretmeyi sever Meryem de filmleri sever 2 Can futbol maci seyretmeyi de sever Bu iki metin belgesine dayanarak soyle bir liste olusturulur Can film futbol maci seyretmeyi sever Meryem de filmleri UygulamaPratik kullanimda kelime cantasi modeli cogu zaman ozellik uretme araci olur Metni kelime cantasin donusturdukten sonra metnin karakterini verecek cesitli nicelikler hesaplayabiliriz Kelime cantasi modelinden hesaplanan en yaygin karakteristik tipi ya da ozellik terim sikligidir yani o terimin metinde kac kez gectigidir Yukaridaki ornekte her bir ayri kelimenin terim sikliklarini su iki listeyi olusturarak kaydedebiliriz 1 1 1 0 0 1 2 1 1 1 2 1 0 1 1 1 1 0 1 0 Listelerdeki her bir girdi listedeki mutekabil girdinin sayisini belirtir buna histogram temsili de denir Ornegin birinci belge 1 i temsil eden listede ilk iki girdi 1 2 dir Ilk girdi Can kelimesine tekabul eder o da listedeki ilk kelimedir ve degeri 1 dir cunku Can birinci belgede 1 kere gecer Bunun gibi ikinci girdi film kelimesine tekabul eder o da listedeki ikinci kelmedir ve degeri 1 dir cunku film ilk belgede 1 kere gecer Bu liste ya da vektor temsili kelimelerin kaynak cumlelerdeki sirasini muhafaza etmez bu da kelime cantasi modelinin temel ozelligidir Bu tur temsillerin bircok basarili uygulamasi vardir ornegin e posta filtreleme Fakat terim sikliklari illaki en iyi metin temsili degildir O bir ve gibi yaygin kelimeler neredeyse hep metindeki en yuksek terim sikligina sahiptir demek ki cok sayida olmak tekabul eden kelimenin daha onemli oldugunu gostermez Bu problemi ele alarak terim sikliklarini normallestirmenin en sevilen yollarindan birisi terimleri belge sikliginin tersiyle agirliklandirmaktir buna da tf idf denir Buna ek olarak siniflandirma amacina yonelik belgenin sinif etiketini dikkate alan supervizeli alternatifler gelistirilmistir Son olarak bazi problemlerde sikliklar yerine ikili varlik yokluk ya da 1 0 agirliklar kullanilir Mesela WEKA makine ogrenmesi yazilim sisteminde bu secenek konmustur N gram modeliKelime cantasi modeli sirasiz bir belge temsilidir kelimelerin sadece sayisina bakilir Mesela yukaridaki ornekte Can film seyretmeyi sever Meryem de filmleri sever kelime cantasi modeli bu metinde her cumlenin sever yuklemiyle bittigini ortaya cikarmayacaktir Alternatif olarak metindeki bu uzamsal enformasyonu saklamakta n gram modeli kullanilabilir Yukaridaki ayni ornege uygulanarak bigram modeli metni su birimlere cozdurecek ve her birimdeki terim sikliklarini onceki gibi saklayacaktir Can film film seyretmeyi seyretmeyi sever Meryem de de filmleri filmleri sever Kavram olarak kelime cantasi modelini n gram modelin n 1 icin ozel durumu gibi gorebiliriz Daha detayli tartisma dil modelinde okunabilir Karim dolabi Hashing trick Sozluk kullaniminin yaygin bir alternatifi karim dolabidir kelimeler dogrudan bir karim isleviyle hashing function endekslere eslenir Kelimelerin endekslere bir karim isleviyle dogrudan eslenmesiyle sozluk saklayacak bellege hic gerek kalmaz Karim cakismalari oldugunda cogu zaman bosaltilmis bellek kullanilarak karim kovalarinin sayisi cogaltilir Pratikte karim kelime cantasi modellerinin kodlanmasini muthis basitlestirir ve olceklenebilirligini gelistirir Ornek kullanim spam suzgeciBayesci spam suzgecinde e posta mesaji iki olasilik dagiliminin birinden secilen kelimelerin sirasiz derlemesi gibi modellenir biri spamleri oburu mesru e postalari ham temsil eder Kelimelerle dolu iki tane canta hayal edin Cantalarin biri spam mesajlarda bulunan kelimelerle doludur diger canta mesru e postalarda bulunan kelimelerle doludur Verilen herhangi bir kelimenin iki cantada da bulunmasi muhtemel olsa da spam cantasi borsa Viagra satin al gibi spamvari kelimeleri cok daha siklikla icerecektir ham cantasi ise kullanicinin arkadaslari ve isyeriyle ilgili kelimeleri daha cok icerecektir E posta mesajini siniflandirmak icin Bayesci spam suzgeci bu mesajin iki cantanin birinden rastgele dokulmus bir kelimeler yigini oldugunu varsayar ve Bayesci olasiliklari kullanarak hangi cantanin daha muhtemel oldugunu belirler Kaynakca a b Sivic Josef Nisan 2009 Efficient visual search of videos cast as text retrieval PDF IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE VOL 31 NO 4 IEEE ss 591 605 22 Subat 2016 tarihinde kaynagindan PDF Erisim tarihi 15 Agustos 2016 1954 Distributional Structure Word 10 2 3 ss 146 62 And this stock of combinations of elements becomes a factor in the way later choices are made for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use Youngjoong Ko 2012 A study of term weighting schemes using class information for text classification ACM Weinberger K Q Dasgupta A Langford J Smola A Attenberg J 2009 Feature hashing for large scale multitask learning Proceedings of the 26th Annual International Conference on Machine Learning ss 1113 1120 arXiv 0902 2206 2