Zipf yasası veya dilde tutumluluk yasası, matematiksel istatistik bilimi kullanılarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930'da Amerika'da Harvard Üniversitesi'nde dilbilim profesörü olan tarafından yayımlanması üzerine, onun adı verilmiştir. Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkındadır.
Olasılık kütle fonksiyonu ;;N=10 için Zipf OKF log–log ıskalası üzerindedir. Yatay eksen k endeksidir. (Fonksiyonun k nin sadece tam sayı değerleri ile tanımlandığına dikkat etmek gerekmektedir. Grafikteki noktaların birbirlerine doğrular parçaları ile bağlanmaları devamlılık ifade etmemelidir.) ) | |
Yığmalı dağılım fonksiyonu Fonksiyonun k nin sadece tam sayı değerleri ile tanımlandığına dikkat etmek gerekmektedir. Grafikteki noktaların birbirlerine doğrular parçaları ile bağlanmaları devamlılık ifade etmemelidir. ) | |
Parametreler | (reel) (tam sayı) |
---|---|
Olasılık kütle fonksiyonu (OYF) | |
Birikimli dağılım fonksiyonu (YDF) | |
Ortalama | |
Medyan | |
Mod | |
Varyans | |
Çarpıklık | |
Fazladan basıklık | |
Entropi | |
Moment üreten fonksiyon (mf) | |
Karakteristik fonksiyon |
Bu yasa daha önce de Alman Felix Auerbach tarafından 1913'te yayımlanmıştır. Ama bu yayımda yapılan sıralama dünya șehirlerinin nüfus itibarıyla sıralanması idi. Fransız stenografi uzmanı (1868-1950) de metinlerde bulunan sözcüklerinin sistemik sıklıkları hakkında Zipf'den önce yayım yapmıştır. Bu sıralamalar şirket büyüklükleri sıralamaları, gelir sıralamaları vb. için de uygulanmıştır. Benoît Mandelbrot bu yasayı genelleştirmiştir.
Zipf yasasının niçin insan dillerinin çoğunda uygulanabileceği bilinmemektedir.
Basit tanımlama ve örnekler
Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesindeki tek bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı olur. Bu daha kolayca, sıra numarası N olan bir sözcük için sıklığın 1/N olması şeklinde ifade edilebilir. Böylece en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılır.
Bir diğer örnek olarak 10 sözcükten oluşan bir metin dili ele alındığı kabul edilsin ve bu metin dilinde hazırlanan tüm metinlerde en fazla sayda kullanılan sözcüğün 100 defa kullanıldığı kabul edilsin; bu halde yapılan en sık kullanılandan az sık kullanılan sözcüğe göre yapılan sözcük sıralaması (Zipf yasası'na göre) şöyle olacaktır:
1. sözcük => 100/1 = 100
2. sözcük => 100/2 = 50
3. sözcük => 100/3 = 33,3
4. sözcük => 100/4 = 25
5. sözcük => 100/5 = 20
6. sözcük => 100/6 = 16,6
7. sözcük => 100/7 = 14,3
8. sözcük => 100/8 = 12,5
9. sözcük => 100/9 = 11,1
10. sözcük => 100/10= 10
Bu örnekte görüldüğü gibi sıralamadaki ilk sözcüklerin sıklığı diğerlerine göre çok daha fazla olarak gözlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda gözlenmektedir.
, İrlandalı yazar James Joyce'un 2 Şubat 1922'de yayınlanan Ulysses adlı romanını ayrıntılı incelemiş ve bu romanda bulunan sözcüklerin sıklığını ve bu sıklığın sıralanmasını bulmuştur. Bu araştırmaya göre
- en fazla sıklıkla kullanılan sözcük 8.000 defa kullanılmış;
- sıklık sıralamasında 10. olan sözcük 800 defa kullanılmış;
- sıklık sıralamasında 100. olan sözcük 80 defa kullanılmış;
- sıklık sıralamasında 1000. olan sözcük 8 defa kullanılmıştır.
Günümüzde bilgisayarlar kullanılarak eldeki en büyük yazılı metinlerde bile sözcük sıralama araştırması birkaç saniyeyi aşmamaktadır ve bunlardan genelleme yapılırsa herhangi bir yazılı metinde gözlenmektedir ki sırası N olan bir sözcük için sıralama fonksiyonu f(N) şu Zipf yasasına uymaktadır:
burada K bir sabittir.
Zipf yasasının uygulanması en kolay bir şekilde sıralama sıklıklar verisinin bir eksenli grafikte gösterilmesi ve bu verilere doğrusal regresyon tatbiki olmaktadır. Herhangi değişken bir sıralama verisi için; R=sıralama sayıları; N: sıralama sıklığı ve a ve b doğrusal regresyon katsayıları olup
log R = a - b log N
Regresyon doğrusu uygulanırsa ve eğer b=1 bulunursa, verilerin Zipf yasasına uygunluğu kabul edilmesi gerekir.
2004'te yapılan ve dünya şehirlerinin nüfusları sıralamasına uygulanan bir araştırmada genel olarak b = 1.07 bulunmuştur. Tüm dağılımın log-normal dağılımın uygunluğu ve üst kuyruk verilerinin ise Zipf yasasına uyduğu görülmüştür. Bu çalışmaya göre "the" sözcüğü için
x = log(1) ve y = log(69971).
Teorik gelişme
Bu yasaya göre fiziksel bilimler ve sosyal bilimlerde incelenen verilerin çoğunluğu ayrık ilişkili olan bir Zipf dağılımı yaklaşık olarak ifade edilir. Formel olarak; şu ifadeleri kullanalım:
- N elemanlar sayısı;
- k elemanların sıralaması;
- s dağılımı karakterize eden üssel değer
Zipf yasası N sayıda elemanı bulunan bir ana kitle için, k sıralama numarası gösteren elemanların dağılımını f(k;s,N) fonksiyonu şöyle ifade eder:
Eğer her elemanın ortaya çıkma sıklığı da sayıları birbirinden bağımsız ve bir üstel yasa dağılımı, yani
, gösteren birbiryle tüm olarak aynı olan dağılım gösteren rassal değişkenler ise Zipf yasası geçerlidir.
İngilizce dilinde bulunan sözcükler örneğine göre N İngilizce dilinde bulunan sözcük sayısı olursa ve klasik Zipf yasası kullanılırsa s in üssel değeri 1 olur. O zaman f(k; s,N) en çok kullanılan sözcüğün kullanılma oranını ifade eder.
Zipf yasası şu şekilde de ifade edilebilir:
burada HN,s Ninci genelleştirilmiş olur.
İstatistiksel açıklama
Wentian Li bu yasanın rassal olarak yaratılmış olan metinlerin istatistiksel analizi ile de kısmen açıklanabileceğini iddia etmektedir. Bir ayrık tekdüze dağılım gösteren alfabede bulunan her harfi (ve boşluk ifade eden karakteri) kapsayan bir kütleden rassal olarak seçilen her bir karakteri ihtiva eden bir metinde bulunan sözcüklerin (yaklaşık olarak log-log eksenli bir grafikte yaklaşık olarak doğrusal görünerek) Zipf yasasına uygunluklarını göstermiştir.
Vitold Belevitch ise çok sayıda iyice belirtilebilen istatistiksel dağılımı (sadece değil) ele alıp bunların bir sıralamasını yapmıştır. Sonra her bir ifadeyi bir Taylor serisi olarak genişletmiştir. Çok dikkat çekici bir sonuç olarak incelendiği her halde elde edilen Taylor serisinin birinci-sıra kesiminin Zipf Yasası'na ve ikinci-sıra kesiminin ise Zipf-Mandelbrot Yasası'na uygun oldukları görülmektedir.
Zipf'in şahsi açıklaması belirlenmiş bir insan dilini konuşanların ve bu dille yazarların ifade ettiklerinin anlaşılabilmesi için yaklaşık olarak eşit dağılımlı efor sarf etmekten fazla uğraşmaktan sakınmaktadırlar. Bu gereken eforun fazlasından kaçınmak Zipf Yasası'nın gözlenmesine neden olmaktadır.
Ayrıca bakınız
Kaynakça
- ^ Zipf George K. (1935). The psychology of language.Cambridge, Mass.: Houghton-Mifflin.
- ^ Zipf George K. (1949). Human behavior and the principle of least effort. Addison-Wesley.
- ^ Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
- ^ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), , say. 24
- ^ Brillouin, Léon [1959] 2004. La science et la théorie de l'information.
- ^ Eeckhout J. (2004), "Gibrat's law for (All) Cities." American Economic Review C.94(5), say.1429-1451.
- ^ Adamic, Lada A. "Zıpf, Üstel-yasalar ve Pareto - bir sıralama ders notu" 26 Ekim 2007 tarihinde Wayback Machine sitesinde .
- ^ Li, Wentian (1992). (PDF). IEEE Transactions on Information Theory. 38 (6). ss. 1842-1845. doi:10.1109/18.165464. 31 Ağustos 2012 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 19 Kasım 2012.
- ^ Belevitch, Vitold (1959), "On the statistical laws of linguistic distributions", Annales de la Soçiété Scientifique de Bruxelles C.73 seri İ say.310-326.
- ^ "Statistical metalinguistics and Zıpf/Pareto/Mandelbrot" SRİ International Computer Science Laboratory 5 Haziran 2011 tarihinde Wayback Machine sitesinde ., erişim: 29 Mayıs 2011.
- ^ Zipf, George K. (1969). Human Behavior and the Principle of Least Effort, Cambridge, Mass, Addison-Wesley, s. 1
Dış bağlantılar
Wikimedia Commons'ta Zipf yasası ile ilgili ortam dosyaları bulunmaktadır. |
- Zipf, George K. (1949) Human Behavior and the Principle of Least Effort. Cambridge, Mass.:Addison-Wesley. (İngilizce)
- Zipf, George K. (1935) The Psychobiology of Language. Houghton-Mifflin. (İngilizce)
- Zipf yasası için kapsamlı bibliyografya 3 Haziran 2006 tarihinde Wayback Machine sitesinde .
- Zipf yasası için PlanetMath maddesi 18 Ekim 2002 tarihinde Wayback Machine sitesinde .
- Wolfram Projesi için A.B.D. şehirleri için Zipf Yasası. Hazırlayan: Fiona Maclachlan 13 Kasım 2012 tarihinde Wayback Machine sitesinde .
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Zipf yasasi veya dilde tutumluluk yasasi matematiksel istatistik bilimi kullanilarak ortaya cikartilan bir empirik yasa olarak formule edilmistir Yasaya ad olarak 1930 da Amerika da Harvard Universitesi nde dilbilim profesoru olan tarafindan yayimlanmasi uzerine onun adi verilmistir Bu empirik yasa herhangi bir insan dili ile yazilmis bir metinde bulunan sozcuklerin sikliliklari hakkindadir Zipf yasasi Olasilik kutle fonksiyonu N 10 icin Zipf OKF log log iskalasi uzerindedir Yatay eksenkendeksidir Fonksiyonunknin sadece tam sayi degerleri ile tanimlandigina dikkat etmek gerekmektedir Grafikteki noktalarin birbirlerine dogrular parcalari ile baglanmalari devamlilik ifade etmemelidir Yigmali dagilim fonksiyonu Fonksiyonun k nin sadece tam sayi degerleri ile tanimlandigina dikkat etmek gerekmektedir Grafikteki noktalarin birbirlerine dogrular parcalari ile baglanmalari devamlilik ifade etmemelidir Parametreler s gt 0 displaystyle s gt 0 reel N 1 2 3 displaystyle N in 1 2 3 ldots tam sayi k 1 2 N displaystyle k in 1 2 ldots N Olasilik kutle fonksiyonu OYF 1 ksHN s displaystyle frac 1 k s H N s Birikimli dagilim fonksiyonu YDF Hk sHN s displaystyle frac H k s H N s Ortalama HN s 1HN s displaystyle frac H N s 1 H N s MedyanMod 1 displaystyle 1 VaryansCarpiklikFazladan basiklikEntropi sHN s k 1Nln k ks ln HN s displaystyle frac s H N s sum k 1 N frac ln k k s ln H N s Moment ureten fonksiyon mf 1HN s n 1Nentns displaystyle frac 1 H N s sum n 1 N frac e nt n s Karakteristik fonksiyon 1HN s n 1Neintns displaystyle frac 1 H N s sum n 1 N frac e int n s Bu yasa daha once de Alman Felix Auerbach tarafindan 1913 te yayimlanmistir Ama bu yayimda yapilan siralama dunya șehirlerinin nufus itibariyla siralanmasi idi Fransiz stenografi uzmani 1868 1950 de metinlerde bulunan sozcuklerinin sistemik sikliklari hakkinda Zipf den once yayim yapmistir Bu siralamalar sirket buyuklukleri siralamalari gelir siralamalari vb icin de uygulanmistir Benoit Mandelbrot bu yasayi genellestirmistir Zipf yasasinin nicin insan dillerinin cogunda uygulanabilecegi bilinmemektedir Basit tanimlama ve orneklerDilbilimde bu yasaya gore herhangi bir yazili metinde gecen sozcukler azalan sikliga gore yani en cok kullanilandan en az kullanilana dogru siralanirsa elde edilen siralama listesindeki tek bir sozcugun sira numarasi ile o sozcugun siklik sayisi her zaman sabit bir sayi olur Bu daha kolayca sira numarasi N olan bir sozcuk icin sikligin 1 N olmasi seklinde ifade edilebilir Boylece en fazla siklikla kullanilan sozcuk ikinci sirada siklikla kullanilan sozcukten 2 misli daha fazla ucuncu siradaki sozcukten 3 misli daha fazla kullanilir Bir diger ornek olarak 10 sozcukten olusan bir metin dili ele alindigi kabul edilsin ve bu metin dilinde hazirlanan tum metinlerde en fazla sayda kullanilan sozcugun 100 defa kullanildigi kabul edilsin bu halde yapilan en sik kullanilandan az sik kullanilan sozcuge gore yapilan sozcuk siralamasi Zipf yasasi na gore soyle olacaktir 1 sozcuk gt 100 1 100 2 sozcuk gt 100 2 50 3 sozcuk gt 100 3 33 3 4 sozcuk gt 100 4 25 5 sozcuk gt 100 5 20 6 sozcuk gt 100 6 16 6 7 sozcuk gt 100 7 14 3 8 sozcuk gt 100 8 12 5 9 sozcuk gt 100 9 11 1 10 sozcuk gt 100 10 10 Bu ornekte goruldugu gibi siralamadaki ilk sozcuklerin sikligi digerlerine gore cok daha fazla olarak gozlenmekte diger tum sozcukler gittikce azalan sayilarda gozlenmektedir Irlandali yazar James Joyce un Ulyses adli Ingilizce romaninin ana metinindeki sozcuklerin sikliliklarinin siralanmasi Irlandali yazar James Joyce un 2 Subat 1922 de yayinlanan Ulysses adli romanini ayrintili incelemis ve bu romanda bulunan sozcuklerin sikligini ve bu sikligin siralanmasini bulmustur Bu arastirmaya gore en fazla siklikla kullanilan sozcuk 8 000 defa kullanilmis siklik siralamasinda 10 olan sozcuk 800 defa kullanilmis siklik siralamasinda 100 olan sozcuk 80 defa kullanilmis siklik siralamasinda 1000 olan sozcuk 8 defa kullanilmistir Gunumuzde bilgisayarlar kullanilarak eldeki en buyuk yazili metinlerde bile sozcuk siralama arastirmasi birkac saniyeyi asmamaktadir ve bunlardan genelleme yapilirsa herhangi bir yazili metinde gozlenmektedir ki sirasi N olan bir sozcuk icin siralama fonksiyonu f N su Zipf yasasina uymaktadir f n Kn displaystyle f n frac K n burada K bir sabittir Zipf yasasinin uygulanmasi en kolay bir sekilde siralama sikliklar verisinin bir eksenli grafikte gosterilmesi ve bu verilere dogrusal regresyon tatbiki olmaktadir Herhangi degisken bir siralama verisi icin R siralama sayilari N siralama sikligi ve a ve b dogrusal regresyon katsayilari olup log R a b log N Regresyon dogrusu uygulanirsa ve eger b 1 bulunursa verilerin Zipf yasasina uygunlugu kabul edilmesi gerekir 2004 te yapilan ve dunya sehirlerinin nufuslari siralamasina uygulanan bir arastirmada genel olarak b 1 07 bulunmustur Tum dagilimin log normal dagilimin uygunlugu ve ust kuyruk verilerinin ise Zipf yasasina uydugu gorulmustur Bu calismaya gore the sozcugu icin x log 1 ve y log 69971 Teorik gelismeBu yasaya gore fiziksel bilimler ve sosyal bilimlerde incelenen verilerin cogunlugu ayrik iliskili olan bir Zipf dagilimi yaklasik olarak ifade edilir Formel olarak su ifadeleri kullanalim N elemanlar sayisi k elemanlarin siralamasi s dagilimi karakterize eden ussel deger Zipf yasasi N sayida elemani bulunan bir ana kitle icin k siralama numarasi gosteren elemanlarin dagilimini f k s N fonksiyonu soyle ifade eder f k s N 1 ks n 1N 1 ns displaystyle f k s N frac 1 k s sum n 1 N 1 n s Eger her elemanin ortaya cikma sikligi da sayilari birbirinden bagimsiz ve bir ustel yasa dagilimi yani p f af 1 1 s displaystyle p f alpha f 1 1 s gosteren birbiryle tum olarak ayni olan dagilim gosteren rassal degiskenler ise Zipf yasasi gecerlidir Ingilizce dilinde bulunan sozcukler ornegine gore N Ingilizce dilinde bulunan sozcuk sayisi olursa ve klasik Zipf yasasi kullanilirsa s in ussel degeri 1 olur O zaman f k s N en cok kullanilan sozcugun kullanilma oranini ifade eder Zipf yasasi su sekilde de ifade edilebilir f k s N 1ksHN s displaystyle f k s N frac 1 k s H N s burada HN s Ninci genellestirilmis olur Istatistiksel aciklamaWentian Li bu yasanin rassal olarak yaratilmis olan metinlerin istatistiksel analizi ile de kismen aciklanabilecegini iddia etmektedir Bir ayrik tekduze dagilim gosteren alfabede bulunan her harfi ve bosluk ifade eden karakteri kapsayan bir kutleden rassal olarak secilen her bir karakteri ihtiva eden bir metinde bulunan sozcuklerin yaklasik olarak log log eksenli bir grafikte yaklasik olarak dogrusal gorunerek Zipf yasasina uygunluklarini gostermistir Vitold Belevitch ise cok sayida iyice belirtilebilen istatistiksel dagilimi sadece degil ele alip bunlarin bir siralamasini yapmistir Sonra her bir ifadeyi bir Taylor serisi olarak genisletmistir Cok dikkat cekici bir sonuc olarak incelendigi her halde elde edilen Taylor serisinin birinci sira kesiminin Zipf Yasasi na ve ikinci sira kesiminin ise Zipf Mandelbrot Yasasi na uygun olduklari gorulmektedir Zipf in sahsi aciklamasi belirlenmis bir insan dilini konusanlarin ve bu dille yazarlarin ifade ettiklerinin anlasilabilmesi icin yaklasik olarak esit dagilimli efor sarf etmekten fazla ugrasmaktan sakinmaktadirlar Bu gereken eforun fazlasindan kacinmak Zipf Yasasi nin gozlenmesine neden olmaktadir Ayrica bakinizLorenz egrisi Pareto dagilimiKaynakca Zipf George K 1935 The psychology of language Cambridge Mass Houghton Mifflin Zipf George K 1949 Human behavior and the principle of least effort Addison Wesley Auerbach F 1913 Das Gesetz der Bevolkerungskonzentration Petermanns Geogr Mitt 59 74 76 Christopher D Manning Hinrich Schutze Foundations of Statistical Natural Language Processing MIT Press 1999 ISBN 978 0 262 13360 9 say 24 Brillouin Leon 1959 2004 La science et la theorie de l information Eeckhout J 2004 Gibrat s law for All Cities American Economic Review C 94 5 say 1429 1451 Adamic Lada A Zipf Ustel yasalar ve Pareto bir siralama ders notu 26 Ekim 2007 tarihinde Wayback Machine sitesinde Li Wentian 1992 PDF IEEE Transactions on Information Theory 38 6 ss 1842 1845 doi 10 1109 18 165464 31 Agustos 2012 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 19 Kasim 2012 Belevitch Vitold 1959 On the statistical laws of linguistic distributions Annales de la Societe Scientifique de Bruxelles C 73 seri I say 310 326 Statistical metalinguistics and Zipf Pareto Mandelbrot SRI International Computer Science Laboratory 5 Haziran 2011 tarihinde Wayback Machine sitesinde erisim 29 Mayis 2011 Zipf George K 1969 Human Behavior and the Principle of Least Effort Cambridge Mass Addison Wesley s 1Dis baglantilarWikimedia Commons ta Zipf yasasi ile ilgili ortam dosyalari bulunmaktadir Zipf George K 1949 Human Behavior and the Principle of Least Effort Cambridge Mass Addison Wesley Ingilizce Zipf George K 1935 The Psychobiology of Language Houghton Mifflin Ingilizce Zipf yasasi icin kapsamli bibliyografya 3 Haziran 2006 tarihinde Wayback Machine sitesinde Zipf yasasi icin PlanetMath maddesi 18 Ekim 2002 tarihinde Wayback Machine sitesinde Wolfram Projesi icin A B D sehirleri icin Zipf Yasasi Hazirlayan Fiona Maclachlan 13 Kasim 2012 tarihinde Wayback Machine sitesinde