Bu madde veya sayfa başka bir dilden kötü bir biçimde tercüme edilmiştir. Sayfa makine çevirisi veya dilde yetkinliği bulunmayan bir çevirmen tarafından oluşturulmuş olabilir.Temmuz 2022) ( |
Hesaplamalı dilbilim ve olasılık alanlarında, bir n-gram (bazen Q-gram olarak da adlandırılır), belirli bir metin veya konuşma örneğinden n öğenin bitişik bir dizisidir. Öğeler uygulamaya göre fonemler, heceler, harfler, kelimeler veya baz çiftleri olabilir. n-gramlar tipik olarak bir metinden veya konuşma korpusundan toplanır. Öğeler kelimeler olduğunda, n-gramlar zona olarak da adlandırılabilir.
Latin sayısal önekleri kullanıldığında, 1 boyutundaki bir n-gram "unigram" olarak adlandırılır; boyut 2 bir "bigram"dır (veya daha az yaygın olarak bir "digram"); boyut 3 bir "trigram" dır. İngilizce ana sayılar bazen kullanılır, örneğin "dört gram", "beş gram" vb. Hesaplamalı biyolojide, bilinen boyuttaki bir polimer veya oligomer, "monomer", "dimer", "trimer", "tetramer", "pentamer" vb. veya İngilizce ana sayılar, "one-mer", "two-mer", "three-mer" vb.
Uygulamalar
Bir n-gram modeli, (n − 1) düzeyli Markov modeli biçiminde böyle bir dizideki bir sonraki öğeyi tahmin etmeye yönelik bir tür olasılıksal dil modelidir.n-gram modelleri artık olasılık, iletişim teorisi, hesaplamalı dilbilim (Örneğin, istatistiksel doğal dil işleme ), hesaplamalı biyoloji (örneğin, biyolojik dizi analizi) ve veri sıkıştırmada yaygın olarak kullanılmaktadır. n-gram modellerinin (ve bunları kullanan algoritmaların) iki avantajı basitlik ve ölçeklenebilirliktir - daha büyük n ile bir model, iyi anlaşılmış bir uzay-zaman dengesi ile daha fazla bağlam depolayabilir ve küçük deneylerin verimli bir şekilde ölçeklenmesini sağlar.
Örnekler
Tarla | Birim | Örnek dizi | 1 gramlık dizi | 2 gramlık dizi | 3 gramlık dizi |
---|---|---|---|---|---|
yerel ad | unigram | bigram | trigram | ||
Elde edilen Markov modelinin sırası | 0 | 1 | 2 | ||
Protein dizilimi | amino asit | . . . Cys-Gly-Leu-Ser-Trp . . . | . . ., Cys, Gly, Leu, Ser, Trp, . . . | . . ., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, . . . | . . ., Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, . . . |
DNA dizilimi | çift bazlı | . . . AGCTTCGA. . . | . . ., A, G, C, T, T, C, G, A, . . . | . . ., AG, GC, CT, TT, TC, CG, GA, . . . | . . ., AGC, GCT, CTT, TTC, TCG, CGA, . . . |
Hesaplamalı dilbilimleri | karakter | ...olmak ya da olmamak. . . | ..., olmak ya da olmamak, . . . | ..., to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, . . . | ..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, . . . |
Hesaplamalı dilbilimleri | kelime | ... olmak ya da olmamak . . . | ..., olmak ya da olmamak, . . . | ..., olmak, olmak ya da olmamak, olmamak, olmak, . . . | ..., olmak ya da olmamak ya da olmamak, olmamak, . . . |
Şekil 1 birkaç örnek diziyi ve karşılık gelen 1-gram, 2-gram ve 3-gram dizilerini göstermektedir.
İşte diğer örnekler; bunlar Google n-gram korpusundan kelime düzeyinde 3 gram ve 4 gramdır (ve göründükleri sayı sayılarıdır).
3 gram
- seramik koleksiyon parçaları (55)
- seramik koleksiyon parçaları para cezası (130)
- (52) tarafından toplanan seramikler
- seramik koleksiyon çömlekleri (50)
- seramik koleksiyon yemek pişirme (45)
4 gram
- gelen olarak hizmet et (92)
- kuluçka makinesi olarak hizmet et (99)
- bağımsız olarak hizmet et (794)
- indeks olarak hizmet et (223)
- gösterge görevi görür (72)
- gösterge görevi görür (120)
n-gram modelleri
Bir n-gram modeli dizileri, özellikle doğal diller, n-gramların istatistiksel özelliklerini kullanarak modeller.
Bu fikrin izini Claude Shannon'ın bilgi teorisindeki çalışmasıyla bir deneye kadar takip etmek mümkündür. Shannon şu soruyu sordu: bir harf dizisi verildiğinde (örneğin, "eski için" dizisi), bir sonraki harfin olasılığı nedir? Eğitim verilerinden, büyüklük geçmişi verilen bir sonraki harf için bir olasılık dağılımı elde edilebilir. : a = 0.4, b = 0.00001, c = 0, ....; tüm olası "sonraki harflerin" olasılıklarının toplamı 1.0'dır.
Daha kısaca, bir n-gram modeli tahmin eder dayalı . Olasılık açısından, bu . Dil modelleme için kullanıldığında, bağımsızlık varsayımları yapılır, böylece her kelime yalnızca son n'ye bağlıdır. - 1 kelime. Bu Markov modeli, gerçek temel dilin bir yaklaşımı olarak kullanılır. Bu varsayım önemlidir, çünkü dil modelini verilerden tahmin etme problemini büyük ölçüde basitleştirir. Ek olarak, dilin açık doğası nedeniyle, dil modelinin bilmediği kelimeleri birlikte gruplamak yaygındır.
Basit bir n-gram dil modelinde, önceki birkaç kelimeye (bigram modelinde bir kelime, trigram modelinde iki kelime, vb.) koşullu bir kelimenin olasılığının, kategorik bir dağılımın ardından tanımlanabileceğini unutmayın. (genellikle kesin olmayan bir şekilde "çok terimli dağılım" olarak adlandırılır).
Pratikte, olasılık dağılımları, görünmeyen kelimelere veya n-gramlara sıfır olmayan olasılıklar atanarak düzeltilir; bkz. yumuşatma teknikleri.
Sözdizimsel n-gramların başka bir türü, metnin konuşma bölümü dizilerinden çıkarılan sabit uzunlukta bitişik örtüşen alt diziler olarak tanımlanan konuşma bölümü n-gramlarıdır. Konuşma bölümü n-gramlarının, en yaygın olarak bilgi almada olmak üzere birkaç uygulaması vardır.
Ayrıca bakınız
- kollokasyon
- Gizli Markov modeli
- n-tuple
- dize çekirdeği
- MinHash
- Özellik çıkarma
- En uzun ortak alt dize sorunu
Uygulamalar ve düşünceler
n-gram modelleri istatistiksel doğal dil işlemede yaygın olarak kullanılmaktadır. Konuşma tanımada, sesbirimler ve sesbirim dizileri bir n-gram dağılımı kullanılarak modellenir. Ayrıştırma için kelimeler, her n-gram n kelimeden oluşacak şekilde modellenir. Dil tanımlaması için, farklı diller için karakter/grafem dizileri (örneğin, alfabenin harfleri) modellenmiştir. Karakter dizileri için, "günaydın"dan oluşturulabilen 3 gram (bazen "trigram" olarak anılır) "goo", "ood", "od", "dm", "mo", "mor" şeklindedir. " vb., boşluk karakterini gram olarak sayma (bazen bir metnin başı ve sonu, "_ _g", "_go", "ng_" ve "g_ _" eklenerek açıkça modellenir). Kelime dizileri için, "köpek kokarca gibi kokuyordu" dan üretilebilecek trigramlar (zona) "# köpek", "köpek kokuyordu", "köpek kokuyordu", "gibi kokuyordu", "gibi bir kokarca" ve "bir kokarca #".
Ayrıca bakınız
- kollokasyon
- Gizli Markov modeli
- n-tuple
- dize çekirdeği
- MinHash
- Özellik çıkarma
- En uzun ortak alt dize sorunu
Konuyla ilgili yayınlar
- Christopher D. Manning, Hinrich Schütze, İstatistiksel Doğal Dil İşlemenin Temelleri, MIT Press: 1999.ISBN'si .
- Frederick J. Damerau, Markov Modelleri ve Dil Teorisi . Mouton. Lahey, 1971.
- ^ . 1 Ocak 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Ocak 2017.
- ^ Alex Franz and Thorsten Brants (2006). . Google Research Blog. 17 Ekim 2006 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2011.
- ^ Lioma (2008). (PDF). French Review of Applied Linguistics. XIII (1): 9-22. 13 Mart 2018 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 12 Mart 2018 – Cairn vasıtasıyla.
Dış bağlantılar
- Google'ın Google Kitaplar n-gram görüntüleyicisi 21 Mayıs 2022 tarihinde Wayback Machine sitesinde . ve Web n-gram veritabanı 17 Ekim 2006 tarihinde Wayback Machine sitesinde . (Eylül 2006)
- Microsoft'un web n -gram hizmeti 24 Mayıs 2022 tarihinde Wayback Machine sitesinde .
- STATOPERATOR N-gram Alexa Top 1M'deki her alan için Proje Ağırlıklı n -gram görüntüleyici 13 Ağustos 2021 tarihinde Wayback Machine sitesinde .
- 425 milyon kelime Corpus of Contemporary American English'ten en sık kullanılan 2,3,4,5 gram 1.000.000 21 Mayıs 2022 tarihinde Wayback Machine sitesinde .
- Peachnote'un müzik ngram görüntüleyicisi 2 Mart 2022 tarihinde Wayback Machine sitesinde .
- Stokastik Dil Modelleri ( n-Gram) Belirtimi 22 Nisan 2022 tarihinde Wayback Machine sitesinde . (W3C)
- Michael Collins'in n -Gram Dil Modelleri üzerine notları 23 Ocak 2022 tarihinde Wayback Machine sitesinde .
- OpenRefine: Derinlemesine Kümeleme 24 Mayıs 2022 tarihinde Wayback Machine sitesinde .
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Bu madde veya sayfa baska bir dilden kotu bir bicimde tercume edilmistir Sayfa makine cevirisi veya dilde yetkinligi bulunmayan bir cevirmen tarafindan olusturulmus olabilir Lutfen ceviriyi gelistirmek icin yardim edin Temmuz 2022 Hesaplamali dilbilim ve olasilik alanlarinda bir n gram bazen Q gram olarak da adlandirilir belirli bir metin veya konusma orneginden n ogenin bitisik bir dizisidir Ogeler uygulamaya gore fonemler heceler harfler kelimeler veya baz ciftleri olabilir n gramlar tipik olarak bir metinden veya konusma korpusundan toplanir Ogeler kelimeler oldugunda n gramlar zona olarak da adlandirilabilir 7 Mayis 2020 itibariyla Coronavirus hastaligi 2019 COVID 19 hakkindaki yayinlarin basliklarinda siklikla alti n gram bulundu Latin sayisal onekleri kullanildiginda 1 boyutundaki bir n gram unigram olarak adlandirilir boyut 2 bir bigram dir veya daha az yaygin olarak bir digram boyut 3 bir trigram dir Ingilizce ana sayilar bazen kullanilir ornegin dort gram bes gram vb Hesaplamali biyolojide bilinen boyuttaki bir polimer veya oligomer monomer dimer trimer tetramer pentamer vb veya Ingilizce ana sayilar one mer two mer three mer vb UygulamalarBir n gram modeli n 1 duzeyli Markov modeli biciminde boyle bir dizideki bir sonraki ogeyi tahmin etmeye yonelik bir tur olasiliksal dil modelidir n gram modelleri artik olasilik iletisim teorisi hesaplamali dilbilim Ornegin istatistiksel dogal dil isleme hesaplamali biyoloji ornegin biyolojik dizi analizi ve veri sikistirmada yaygin olarak kullanilmaktadir n gram modellerinin ve bunlari kullanan algoritmalarin iki avantaji basitlik ve olceklenebilirliktir daha buyuk n ile bir model iyi anlasilmis bir uzay zaman dengesi ile daha fazla baglam depolayabilir ve kucuk deneylerin verimli bir sekilde olceklenmesini saglar OrneklerSekil 1 cesitli disiplinlerden n gram ornekleri Tarla Birim Ornek dizi 1 gramlik dizi 2 gramlik dizi 3 gramlik diziyerel ad unigram bigram trigramElde edilen Markov modelinin sirasi 0 1 2Protein dizilimi amino asit Cys Gly Leu Ser Trp Cys Gly Leu Ser Trp Cys Gly Gly Leu Leu Ser Ser Trp Cys Gly Leu Gly Leu Ser Leu Ser Trp DNA dizilimi cift bazli AGCTTCGA A G C T T C G A AG GC CT TT TC CG GA AGC GCT CTT TTC TCG CGA Hesaplamali dilbilimleri karakter olmak ya da olmamak olmak ya da olmamak to o b be e o or r n no ot t t to o b be to o b be be e o or or r n no not ot t t to to o b be Hesaplamali dilbilimleri kelime olmak ya da olmamak olmak ya da olmamak olmak olmak ya da olmamak olmamak olmak olmak ya da olmamak ya da olmamak olmamak Sekil 1 birkac ornek diziyi ve karsilik gelen 1 gram 2 gram ve 3 gram dizilerini gostermektedir Iste diger ornekler bunlar Google n gram korpusundan kelime duzeyinde 3 gram ve 4 gramdir ve gorundukleri sayi sayilaridir 3 gram seramik koleksiyon parcalari 55 seramik koleksiyon parcalari para cezasi 130 52 tarafindan toplanan seramikler seramik koleksiyon comlekleri 50 seramik koleksiyon yemek pisirme 45 4 gram gelen olarak hizmet et 92 kulucka makinesi olarak hizmet et 99 bagimsiz olarak hizmet et 794 indeks olarak hizmet et 223 gosterge gorevi gorur 72 gosterge gorevi gorur 120 n gram modelleriBir n gram modeli dizileri ozellikle dogal diller n gramlarin istatistiksel ozelliklerini kullanarak modeller Bu fikrin izini Claude Shannon in bilgi teorisindeki calismasiyla bir deneye kadar takip etmek mumkundur Shannon su soruyu sordu bir harf dizisi verildiginde ornegin eski icin dizisi bir sonraki harfin olasiligi nedir Egitim verilerinden buyukluk gecmisi verilen bir sonraki harf icin bir olasilik dagilimi elde edilebilir n displaystyle n a 0 4 b 0 00001 c 0 tum olasi sonraki harflerin olasiliklarinin toplami 1 0 dir Daha kisaca bir n gram modeli tahmin eder xi displaystyle x i dayali xi n 1 xi 1 displaystyle x i n 1 dots x i 1 Olasilik acisindan bu P xi xi n 1 xi 1 displaystyle P x i mid x i n 1 dots x i 1 Dil modelleme icin kullanildiginda bagimsizlik varsayimlari yapilir boylece her kelime yalnizca son n ye baglidir 1 kelime Bu Markov modeli gercek temel dilin bir yaklasimi olarak kullanilir Bu varsayim onemlidir cunku dil modelini verilerden tahmin etme problemini buyuk olcude basitlestirir Ek olarak dilin acik dogasi nedeniyle dil modelinin bilmedigi kelimeleri birlikte gruplamak yaygindir Basit bir n gram dil modelinde onceki birkac kelimeye bigram modelinde bir kelime trigram modelinde iki kelime vb kosullu bir kelimenin olasiliginin kategorik bir dagilimin ardindan tanimlanabilecegini unutmayin genellikle kesin olmayan bir sekilde cok terimli dagilim olarak adlandirilir Pratikte olasilik dagilimlari gorunmeyen kelimelere veya n gramlara sifir olmayan olasiliklar atanarak duzeltilir bkz yumusatma teknikleri Sozdizimsel n gramlarin baska bir turu metnin konusma bolumu dizilerinden cikarilan sabit uzunlukta bitisik ortusen alt diziler olarak tanimlanan konusma bolumu n gramlaridir Konusma bolumu n gramlarinin en yaygin olarak bilgi almada olmak uzere birkac uygulamasi vardir Ayrica bakinizkollokasyon Gizli Markov modeli n tuple dize cekirdegi MinHash Ozellik cikarma En uzun ortak alt dize sorunuUygulamalar ve dusuncelern gram modelleri istatistiksel dogal dil islemede yaygin olarak kullanilmaktadir Konusma tanimada sesbirimler ve sesbirim dizileri bir n gram dagilimi kullanilarak modellenir Ayristirma icin kelimeler her n gram n kelimeden olusacak sekilde modellenir Dil tanimlamasi icin farkli diller icin karakter grafem dizileri ornegin alfabenin harfleri modellenmistir Karakter dizileri icin gunaydin dan olusturulabilen 3 gram bazen trigram olarak anilir goo ood od dm mo mor seklindedir vb bosluk karakterini gram olarak sayma bazen bir metnin basi ve sonu g go ng ve g eklenerek acikca modellenir Kelime dizileri icin kopek kokarca gibi kokuyordu dan uretilebilecek trigramlar zona kopek kopek kokuyordu kopek kokuyordu gibi kokuyordu gibi bir kokarca ve bir kokarca Ayrica bakinizkollokasyon Gizli Markov modeli n tuple dize cekirdegi MinHash Ozellik cikarma En uzun ortak alt dize sorunuKonuyla ilgili yayinlarChristopher D Manning Hinrich Schutze Istatistiksel Dogal Dil Islemenin Temelleri MIT Press 1999 0 262 13360 1ISBN si 0 262 13360 1 Frederick J Damerau Markov Modelleri ve Dil Teorisi Mouton Lahey 1971 1 Ocak 2017 tarihinde kaynagindan arsivlendi Erisim tarihi 1 Ocak 2017 Alex Franz and Thorsten Brants 2006 Google Research Blog 17 Ekim 2006 tarihinde kaynagindan arsivlendi Erisim tarihi 16 Aralik 2011 Lioma 2008 PDF French Review of Applied Linguistics XIII 1 9 22 13 Mart 2018 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 12 Mart 2018 Cairn vasitasiyla ol section Dis baglantilarGoogle in Google Kitaplar n gram goruntuleyicisi 21 Mayis 2022 tarihinde Wayback Machine sitesinde ve Web n gram veritabani 17 Ekim 2006 tarihinde Wayback Machine sitesinde Eylul 2006 Microsoft un web n gram hizmeti 24 Mayis 2022 tarihinde Wayback Machine sitesinde STATOPERATOR N gram Alexa Top 1M deki her alan icin Proje Agirlikli n gram goruntuleyici 13 Agustos 2021 tarihinde Wayback Machine sitesinde 425 milyon kelime Corpus of Contemporary American English ten en sik kullanilan 2 3 4 5 gram 1 000 000 21 Mayis 2022 tarihinde Wayback Machine sitesinde Peachnote un muzik ngram goruntuleyicisi 2 Mart 2022 tarihinde Wayback Machine sitesinde Stokastik Dil Modelleri n Gram Belirtimi 22 Nisan 2022 tarihinde Wayback Machine sitesinde W3C Michael Collins in n Gram Dil Modelleri uzerine notlari 23 Ocak 2022 tarihinde Wayback Machine sitesinde OpenRefine Derinlemesine Kumeleme 24 Mayis 2022 tarihinde Wayback Machine sitesinde