İstatistikte, keşifsel veri analizi (exploratory data analysis; EDA), genellikle istatistiksel grafikler ve diğer veri görselleştirme yöntemlerini kullanarak temel özelliklerini özetlemek için veri kümelerini analiz etme yaklaşımıdır. İstatistiksel bir model kullanılabilir veya kullanılamaz. Ancak öncelikle EDA, verilerin bize resmi modelleme veya hipotez testi görevinin ötesinde neler söyleyebileceğini görmek için vardır. Keşifsel veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için John Tukey tarafından desteklenmiştir. EDA, model uydurma ve hipotez testi için gereken varsayımları daha dar bir şekilde kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya odaklanan ilk veri analizinden (initial data analysis; IDA) farklıdır. EDA, IDA'yı kapsamaktadır.
Tarihçe
Birçok EDA fikri daha önceki yazarlara kadar izlenebilir, örneğin:
- Francis Galton, sipariş istatistiklerini ve niceliklerini vurguladı.
- Arthur Lyon Bowley, stemplot'un öncüllerini ve beş sayı özetini kullandı (Bowley, ortanca ile birlikte uç noktalar, ondalık sayılar ve çeyrekler dahil olmak üzere aslında "yedi haneli bir özet" kullandı - bkz. İlk İstatistik El Kitabı (3. baskı, 1920). ), sayfa 62– "maksimum ve minimum, medyan, çeyrekler ve iki ondalık" "yedi pozisyon" olarak tanımlar.
- Andrew Ehrenberg bir veri azaltma felsefesi dile getirdi.
Açık Üniversite'nin Toplumda İstatistik (MDST 242) dersi, yukarıdaki fikirleri aldı ve bunları Gottfried Noether'in yazı tura ve medyan testi yoluyla istatistiksel çıkarımlar sunan çalışmasıyla birleştirdi.
Genel bakış
Tukey, 1961'de veri analizini şu şekilde tanımladı: "Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve verilerin analizi için geçerli olan (matematiksel) istatistiklerin tüm makineleri ve sonuçları."
Tukey'nin EDA'yı savunması, istatistiksel hesaplama paketlerinin, özellikle de Bell Laboratuvarlarında S'nin geliştirilmesini teşvik etti. S programlama dili, S-PLUS ve R sistemlerine ilham verdi. Bu istatistiksel hesaplama ortamları ailesi, istatistikçilerin daha fazla çalışmayı hak eden verilerdeki aykırı değerleri, eğilimleri ve kalıpları belirlemesine olanak tanıyan büyük ölçüde geliştirilmiş dinamik görselleştirme yeteneklerine sahiptir.
Tukey'nin EDA'sı istatistiksel teorideki diğer iki gelişmeyle ilgiliydi: her ikisi de istatistiksel modellerin formüle edilmesinde istatistiksel çıkarımların hatalara duyarlılığını azaltmaya çalışan sağlam istatistikler ve parametrik olmayan istatistikler. Tukey, sayısal verilerin beş sayı özetinin (iki uç (maksimum ve minimum), medyan ve çeyrekler) kullanımını teşvik etmiştir. Çünkü bu medyan ve çeyrekler, deneysel dağılımın işlevleri olan, ortalama ve standart sapma; dahası, çeyrekler ve medyan, geleneksel özetlerden (ortalama ve standart sapma) çarpık veya ağır kuyruklu dağılımlara karşı daha dayanıklıdır. S, S-PLUS ve R paketleri, parametrik olmayan ve sağlam (birçok problem için) Quenouille ve Tukey'nin jackknife ve Efron'un önyüklemesi gibi yeniden örnekleme istatistiklerini kullanan rutinleri içeriyordu.
Keşfedici veri analizi, sağlam istatistikler, parametrik olmayan istatistikler ve istatistiksel programlama dillerinin geliştirilmesine yarar sağlamıştır. Ayrıca istatistikçilerin bilimsel ve mühendislik problemleri üzerindeki çalışmalarını kolaylaştırmıştır. Bu tür problemler, yarı iletkenlerin üretimini ve Bell Laboratuvarlarını ilgilendiren iletişim ağlarının anlaşılmasını içeriyordu. Tümü Tukey tarafından desteklenen bu istatistiksel gelişmeler, istatistiksel hipotezleri test etmeye yönelik analitik teoriyi, özellikle de Laplacian geleneğinin üstel ailelere yaptığı vurguyu tamamlamak üzere tasarlanmıştır.
Geliştirme
John W. Tukey, 1977'de Keşif Verileri Analizi kitabını yazdı. Tukey, istatistikte çok fazla vurgunun istatistiksel hipotez testine (doğrulayıcı veri analizi) verildiğine karar verdi; test edilecek hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerekiyordu. Özellikle, iki tür analizin karıştırılmasının ve bunların aynı veri kümesi üzerinde kullanılmasının, veriler tarafından önerilen hipotezleri test etmenin doğasında bulunan sorunlar nedeniyle sistematik önyargıya yol açabileceğini savundu.
EDA'nın amaçları şunlardır:
- Gözlenen fenomenin nedenleri hakkında hipotezler önermek
- İstatistiksel çıkarımın dayandırılacağı varsayımları değerlendirmek
- Uygun istatistiksel araç ve tekniklerin seçimini desteklemek
- Anketler veya deneyler yoluyla daha fazla veri toplanması için bir temel sağlamak
Veri madenciliğinde birçok EDA tekniği benimsenmiştir. Ayrıca genç öğrencilere istatistiksel düşünceyi tanıtmanın bir yolu olarak öğretilmektedir.
Teknikler ve araçlar
EDA için yararlı olan bir dizi araç vardır. Ancak EDA, belirli tekniklerden çok, alınan tutumla karakterize edilir.
EDA'da kullanılan tipik grafik teknikleri şunlardır:
- Kutu grafiği
- Histogram
- Çok değişkenli grafik
- Akış Çizelgesi
- Pareto grafiği
- Dağılım grafiği
- Kök-yaprak grafiği
- Paralel koordinatlar
- Olasılık oranı
- Hedeflenen projeksiyon takibi
- PhenoPlot ve Chernoff yüzleri gibi glif tabanlı görselleştirme yöntemleri
- Büyük tur, rehberli tur ve manuel tur gibi projeksiyon yöntemleri
- Bu planların etkileşimli versiyonları
Boyutsal küçülme:
- Çok boyutlu ölçekleme
- Temel bileşen analizi (PCA)
- Çok Doğrulu PCA
- Doğrusal olmayan boyut azaltma (NLDR)
Tipik nicel teknikler şunlardır:
- Median polish
- Trimean
- Ordination
Yazılım
- JMP, SAS Enstitüsünden bir EDA paketi.
- KNIME, Konstanz Information Miner – Eclipse tabanlı Açık Kaynaklı veri keşif platformu.
- Orange, açık kaynaklı bir veri madenciliği ve makine öğrenimi yazılım paketi.
- Python, veri madenciliği ve makine öğreniminde yaygın olarak kullanılan açık kaynaklı bir programlama dilidir.
- R, istatistiksel hesaplama ve grafikler için açık kaynaklı bir programlama dili. Python ile birlikte veri bilimi için en popüler dillerden biri.
- TinkerPlots, ilkokul ve ortaokul öğrencileri için bir EDA yazılımıdır.
- Weka, görselleştirme ve hedeflenen projeksiyon takibi gibi EDA araçlarını içeren açık kaynaklı bir veri madenciliği paketi.
Ayrıca bakınız
- Anscombe'un dörtlüsü, keşfin önemi üzerine
- Tahmine dayalı analitik
- Yapılandırılmış veri analizi (istatistikler)
- Yapısal frekans analizi
- Tanımlayıcı istatistikler
Kaynakça
- ^ Chatfield, Christopher (1995). Problem solving : a statistician's guide. 2nd ed. Londra: Chapman & Hall. ISBN . OCLC 32881624.
- ^ a b Bowley, A. L. (Arthur Lyon) Sir (1920). An elementary manual of statisics. Cornell University Library. London, MacDonald and Evans.
- ^ Tukey, John W. (1 Mayıs 1991). "Data Analysis". Fort Belvoir, VA.
- ^ "Dış bağlantı". 10 Şubat 2006 tarihinde kaynağından arşivlendi.
- ^ Fernholz, Luisa T.; Morgenthaler, Stephan (1 Şubat 2000). "A conversation with John W. Tukey and Elizabeth Tukey". Statistical Science. 15 (1). doi:10.1214/ss/1009212675. ISSN 0883-4237. 24 Haziran 2021 tarihinde kaynağından . Erişim tarihi: 23 Haziran 2021.
- ^ Tukey, John W. (1977). Exploratory data analysis. Reading, Mass.: Addison-Wesley Pub. Co. ISBN . OCLC 3058187.
- ^ (PDF). 8 Ağustos 2017 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 23 Haziran 2021.
- ^ Konold, Clifford. "Statistics Goes to School". Contemporary Psychology. 44 (1): 81-82. doi:10.1037/001949.
- ^ Tukey, John W. "We Need Both Exploratory and Confirmatory". The American Statistician (İngilizce). 34 (1): 23-25. doi:10.1080/00031305.1980.10482706. ISSN 0003-1305. 6 Haziran 2021 tarihinde kaynağından . Erişim tarihi: 23 Haziran 2021.
- ^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris. "Visualizing cellular imaging data using PhenoPlot". Nature Communications (İngilizce). 6 (1): 5825. doi:10.1038/ncomms6825. ISSN 2041-1723. 19 Aralık 2020 tarihinde kaynağından . Erişim tarihi: 23 Haziran 2021.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Istatistikte kesifsel veri analizi exploratory data analysis EDA genellikle istatistiksel grafikler ve diger veri gorsellestirme yontemlerini kullanarak temel ozelliklerini ozetlemek icin veri kumelerini analiz etme yaklasimidir Istatistiksel bir model kullanilabilir veya kullanilamaz Ancak oncelikle EDA verilerin bize resmi modelleme veya hipotez testi gorevinin otesinde neler soyleyebilecegini gormek icin vardir Kesifsel veri analizi istatistikcileri verileri kesfetmeye ve muhtemelen yeni veri toplama ve deneylere yol acabilecek hipotezler formule etmeye tesvik etmek icin John Tukey tarafindan desteklenmistir EDA model uydurma ve hipotez testi icin gereken varsayimlari daha dar bir sekilde kontrol etmeye ve eksik degerleri ele almaya ve gerektiginde degiskenlerin donusumlerini yapmaya odaklanan ilk veri analizinden initial data analysis IDA farklidir EDA IDA yi kapsamaktadir TarihceBircok EDA fikri daha onceki yazarlara kadar izlenebilir ornegin Francis Galton siparis istatistiklerini ve niceliklerini vurguladi Arthur Lyon Bowley stemplot un oncullerini ve bes sayi ozetini kullandi Bowley ortanca ile birlikte uc noktalar ondalik sayilar ve ceyrekler dahil olmak uzere aslinda yedi haneli bir ozet kullandi bkz Ilk Istatistik El Kitabi 3 baski 1920 sayfa 62 maksimum ve minimum medyan ceyrekler ve iki ondalik yedi pozisyon olarak tanimlar Andrew Ehrenberg bir veri azaltma felsefesi dile getirdi Acik Universite nin Toplumda Istatistik MDST 242 dersi yukaridaki fikirleri aldi ve bunlari Gottfried Noether in yazi tura ve medyan testi yoluyla istatistiksel cikarimlar sunan calismasiyla birlestirdi Genel bakisTukey 1961 de veri analizini su sekilde tanimladi Verileri analiz etme prosedurleri bu tur prosedurlerin sonuclarini yorumlama teknikleri analizini daha kolay daha kesin veya daha dogru hale getirmek icin veri toplamayi planlama yollari ve verilerin analizi icin gecerli olan matematiksel istatistiklerin tum makineleri ve sonuclari Tukey nin EDA yi savunmasi istatistiksel hesaplama paketlerinin ozellikle de Bell Laboratuvarlarinda S nin gelistirilmesini tesvik etti S programlama dili S PLUS ve R sistemlerine ilham verdi Bu istatistiksel hesaplama ortamlari ailesi istatistikcilerin daha fazla calismayi hak eden verilerdeki aykiri degerleri egilimleri ve kaliplari belirlemesine olanak taniyan buyuk olcude gelistirilmis dinamik gorsellestirme yeteneklerine sahiptir Tukey nin EDA si istatistiksel teorideki diger iki gelismeyle ilgiliydi her ikisi de istatistiksel modellerin formule edilmesinde istatistiksel cikarimlarin hatalara duyarliligini azaltmaya calisan saglam istatistikler ve parametrik olmayan istatistikler Tukey sayisal verilerin bes sayi ozetinin iki uc maksimum ve minimum medyan ve ceyrekler kullanimini tesvik etmistir Cunku bu medyan ve ceyrekler deneysel dagilimin islevleri olan ortalama ve standart sapma dahasi ceyrekler ve medyan geleneksel ozetlerden ortalama ve standart sapma carpik veya agir kuyruklu dagilimlara karsi daha dayaniklidir S S PLUS ve R paketleri parametrik olmayan ve saglam bircok problem icin Quenouille ve Tukey nin jackknife ve Efron un onyuklemesi gibi yeniden ornekleme istatistiklerini kullanan rutinleri iceriyordu Kesfedici veri analizi saglam istatistikler parametrik olmayan istatistikler ve istatistiksel programlama dillerinin gelistirilmesine yarar saglamistir Ayrica istatistikcilerin bilimsel ve muhendislik problemleri uzerindeki calismalarini kolaylastirmistir Bu tur problemler yari iletkenlerin uretimini ve Bell Laboratuvarlarini ilgilendiren iletisim aglarinin anlasilmasini iceriyordu Tumu Tukey tarafindan desteklenen bu istatistiksel gelismeler istatistiksel hipotezleri test etmeye yonelik analitik teoriyi ozellikle de Laplacian geleneginin ustel ailelere yaptigi vurguyu tamamlamak uzere tasarlanmistir GelistirmeVeri bilimi surec akis semasi John W Tukey 1977 de Kesif Verileri Analizi kitabini yazdi Tukey istatistikte cok fazla vurgunun istatistiksel hipotez testine dogrulayici veri analizi verildigine karar verdi test edilecek hipotezler onermek icin verilerin kullanilmasina daha fazla vurgu yapilmasi gerekiyordu Ozellikle iki tur analizin karistirilmasinin ve bunlarin ayni veri kumesi uzerinde kullanilmasinin veriler tarafindan onerilen hipotezleri test etmenin dogasinda bulunan sorunlar nedeniyle sistematik onyargiya yol acabilecegini savundu EDA nin amaclari sunlardir Gozlenen fenomenin nedenleri hakkinda hipotezler onermek Istatistiksel cikarimin dayandirilacagi varsayimlari degerlendirmek Uygun istatistiksel arac ve tekniklerin secimini desteklemek Anketler veya deneyler yoluyla daha fazla veri toplanmasi icin bir temel saglamak Veri madenciliginde bircok EDA teknigi benimsenmistir Ayrica genc ogrencilere istatistiksel dusunceyi tanitmanin bir yolu olarak ogretilmektedir Teknikler ve araclarEDA icin yararli olan bir dizi arac vardir Ancak EDA belirli tekniklerden cok alinan tutumla karakterize edilir EDA da kullanilan tipik grafik teknikleri sunlardir Kutu grafigi Histogram Cok degiskenli grafik Akis Cizelgesi Pareto grafigi Dagilim grafigi Kok yaprak grafigi Paralel koordinatlar Olasilik orani Hedeflenen projeksiyon takibi PhenoPlot ve Chernoff yuzleri gibi glif tabanli gorsellestirme yontemleri Buyuk tur rehberli tur ve manuel tur gibi projeksiyon yontemleri Bu planlarin etkilesimli versiyonlari Boyutsal kuculme Cok boyutlu olcekleme Temel bilesen analizi PCA Cok Dogrulu PCA Dogrusal olmayan boyut azaltma NLDR Tipik nicel teknikler sunlardir Median polish Trimean OrdinationYazilimJMP SAS Enstitusunden bir EDA paketi KNIME Konstanz Information Miner Eclipse tabanli Acik Kaynakli veri kesif platformu Orange acik kaynakli bir veri madenciligi ve makine ogrenimi yazilim paketi Python veri madenciligi ve makine ogreniminde yaygin olarak kullanilan acik kaynakli bir programlama dilidir R istatistiksel hesaplama ve grafikler icin acik kaynakli bir programlama dili Python ile birlikte veri bilimi icin en populer dillerden biri TinkerPlots ilkokul ve ortaokul ogrencileri icin bir EDA yazilimidir Weka gorsellestirme ve hedeflenen projeksiyon takibi gibi EDA araclarini iceren acik kaynakli bir veri madenciligi paketi Ayrica bakinizAnscombe un dortlusu kesfin onemi uzerine Tahmine dayali analitik Yapilandirilmis veri analizi istatistikler Yapisal frekans analizi Tanimlayici istatistiklerKaynakca Chatfield Christopher 1995 Problem solving a statistician s guide 2nd ed Londra Chapman amp Hall ISBN 0 412 60630 5 OCLC 32881624 a b Bowley A L Arthur Lyon Sir 1920 An elementary manual of statisics Cornell University Library London MacDonald and Evans Tukey John W 1 Mayis 1991 Data Analysis Fort Belvoir VA Dis baglanti 10 Subat 2006 tarihinde kaynagindan arsivlendi Fernholz Luisa T Morgenthaler Stephan 1 Subat 2000 A conversation with John W Tukey and Elizabeth Tukey Statistical Science 15 1 doi 10 1214 ss 1009212675 ISSN 0883 4237 24 Haziran 2021 tarihinde kaynagindan Erisim tarihi 23 Haziran 2021 Tukey John W 1977 Exploratory data analysis Reading Mass Addison Wesley Pub Co ISBN 0 201 07616 0 OCLC 3058187 PDF 8 Agustos 2017 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 23 Haziran 2021 Konold Clifford Statistics Goes to School Contemporary Psychology 44 1 81 82 doi 10 1037 001949 Tukey John W We Need Both Exploratory and Confirmatory The American Statistician Ingilizce 34 1 23 25 doi 10 1080 00031305 1980 10482706 ISSN 0003 1305 6 Haziran 2021 tarihinde kaynagindan Erisim tarihi 23 Haziran 2021 Sailem Heba Z Sero Julia E Bakal Chris Visualizing cellular imaging data using PhenoPlot Nature Communications Ingilizce 6 1 5825 doi 10 1038 ncomms6825 ISSN 2041 1723 19 Aralik 2020 tarihinde kaynagindan Erisim tarihi 23 Haziran 2021