Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.
Veri bilimi, “gerçek olayları verilerle anlamak ve analiz etmek” için “ istatistikleri, veri analizini, makine öğrenimini ve ilgili yöntemlerini birleştirmek için kullanılan bir kavramdır”.Matematik, istatistik, bilgisayar bilimi ve bilgi bilimi bağlamından birçok teknik ve teori kullanır. Turing ödüllü Jim Gray, veri bilimini bir "dördüncü paradigma" bilimi (ampirik, teorik, hesaplamalı ve şimdi veri odaklı) olarak tanımlar. 2015 yılında Amerikan İstatistik Kurumu veritabanı yönetimi, istatistik ve makine öğrenimi ve dağıtılan ve paralel sistemleri üç temel meslek topluluğu olarak tanımladı.
Veri bilimi, bir dizi ilkeyi, çeşitli algoritmaları, olayları ve büyük veri kümelerinden gelen kullanışlı kalıpları ayıklamak için gerekli süreçleri kapsamaktadır. Bununla birlikte veri bilimi, bu süreçlerde; veri analizini, istatistikleri, makine öğrenmesi ve veri madenciliği gibi alanları ve bunlarla ilgili birçok yöntemi birleştirmek için kullanılan bir kavram olarak belirtilir.
Veri bilimi, makine öğrenmesi ve veri madenciliği kavramları sıklıkla birbirleri yerine kullanılmaktadır. Bu disiplinler arasındaki ortaklık, verilerin analizi yoluyla karar vermenin iyileştirilmesini sağlamaktır. Veri bilimi bu alanlardan beslenmekle birlikte, daha geniş bir kapsama alanına sahiptir. Makine öğrenmesi, veriden örüntü çıkarma algoritmalarının tasarımı ve değerlendirmesine de odaklanır. Veri madenciliği genellikle yapılandırılmış verilerin analizi ile ilgilenir ve ticari uygulamalara vurgu yapar. Veri bilimi ise, tüm bu hususları dikkate almaktadır.
Veri bilimi ile ilgili önemli bazı kavramlardan;
Yapılandırılmış veri, en basit anlamıyla bir Excel tablosu olarak düşünülebilir. Başka bir deyişle buradaki her bir sütundaki veri sütun başlığının içeriğine mutlaka uygun bir biçimde yapısı belli olan bir değer içerir. Yapılandırılmış verilerde girdi verileri, sayısal veya kategorik olan belirli bir değişkenler kümesi için veri noktalarından oluşur.
Yapılandırılmamış veriler, herhangi bir dilde yazılan metin, dil bilgisi kurallarına tabi olsa da yapılandırılmış verileri analiz ederken sahip olduğumuz açıkça tanımlanmış değerlerden yoksundur. Günümüzdeki verilerin çoğu yapılandırılmamış biçimdedir. Resim dosyaları, ses dosyaları, PDF dosyalar, Word gibi metin tabanlı dosyalar, elektronik postalar gibi veriler yapılandırılmamış biçimdeki verilerdir.
Diğer yandan, metin veri tabanlarında saklanan veriler, örneğin doküman başlığı, yazar isimleri, tarih, tür gibi bir kısım yapısal olan, ancak içerik gibi büyük oranda yapısal olmayan alanlar içerebilir. Bu durumda ise veri yarı yapılandırılmış bir hâl alır.
Veri analisti kavramı ise, iş dünyasına yapılandırılmış veri biçimi ile girmiştir. Görev tanımı, veri tabanlarından belirli araçlar yardımıyla sonuçlar üretmek ve bunları raporlamaktır. Veri bilimciler ise, artık büyük veri olarak adlandırılan veri kümesi ile birlikte yapılandırılmamış veri biçimi de organizasyonların veri tabanlarında yer almaktadır. Günümüzde Facebook, Twitter gibi sosyal ağlar; Google, Yahoo gibi bazı portaller veri bilimcilerle çalışmaktadır. Veri bilimciler, farklı veri kaynaklarından beslenen büyük veri yönetimi için hipotezler kurup, bu hipotezlerin doğruluğu ya da yanlışlığını test etmek için araştırmalar yapar. Bu doğrultuda veri odaklı önemli uygulamalar geliştirirler. Veri bilimciler, birçok disipline dayanan eşsiz bir beceri setine sahip olmalıdırlar. Sektörden gelen taleplere dayanarak yeni bir iş profili olarak "veri bilimci" ismi, çeşitli endüstriler arasında yaygın olarak farklılaşan bir biçimde ortaya çıkmıştır. Veri bilimcilerin beceri seti çok yönlüdür. Analitikler, veri yönetimi, sanat ve tasarım, girişimcilik, bilgisayar bilimi gibi alanlarda tecrübeyi içermektedir.
Veri biliminin tarihi
Veri biliminin istatistikle yakından bir ilişkisi söz konusudur. 20. yüzyılın önemli istatistikçilerinden birisi olan John W. Tukey, İstatistik matematiğine daha fazla odaklanıldığını ama verilerin analizi konusunda yeteri kadar odaklanılmadığını düşünmüş ve buna karşı bir hareket öngörmüştür. 1977 yılında Tukey, test etmek için ve hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerektiğini ve Keşifsel Veri Analizi ile Doğrulayıcı Veri Analizi'nin "yan yana ilerleyebileceğini ve ilerlemesi gerektiğini" savunarak Keşif Verileri Analizini yayınlamıştır.
"Veri Bilimi" kavramı günümüzde daha yaygın bir şekilde kullanılmaya başlanmıştır. Bu yaygın kullanımı sağlayan bazı kaynaklar vardır ve bu kaynaklarla birlikte kitlelerin erişimi de daha kolay hâle gelmiştir. Bunlardan ikisi; 2002'de Bilim ve Teknoloji Veri Komitesi tarafından başlatılan Data Science Journal ve Columbia Üniversitesi tarafından 2003 yılında başlatılan The Journal of Data Science'dır.
Veri bilimi süreci
Veri bilimi, veriden elde edilen bilginin genelleştirilebilir çıkarımlarının araştırılmasıdır. Ya da veri toplama, ayıklama ve analiz etme gibi soruları formülleştirme sürecine dayanır. Genel olarak veri bilimi süreci ardışıktır ve farklı bileşenlerle birlikte devam eder. İzlenen adımlar ise şu şekildedir:
- İlgilenilen soruyu tanımla,
- Veriyi elde et,
- Veriyi ayıkla,
- Veriyi kontrol et,
- İstatistiksel modeller uydur,
- Sonuçları duyur,
- Analizi yeniden oluşturabilecek şekilde yap.
Veri bilimi süreci döngüsel ve amaç, işlem sonrasında elde edilen bilgiler sonucunda karar verme aşamasına ulaşmaktır.
Veri biliminin etkileri
Veri Bilimi alanı, stratejik bir avantaj için problemleri çözmek amacıyla en son veri teknolojilerinin nasıl kullanıldığı açısından önemli bir geçiş noktasındadır. Veri bilimciler, son zamanlarda ve özellikle gelecekte işlerini çok farklı şekilde yürütmeye devam etmişlerdir. Büyük veri, algoritma ekonomisi, Bulut küresel işletmelerde ana akım olmaya devam ederken, işletmeler eğrinin önünde kalmak için en son rekabet stratejilerini benimsemeye devam etmektedir. Bu geçişin en çarpıcı iki özelliği, veri süreçlerinin artan otomasyonu ve anlık analitik çözümlerinin sunulmasıdır. Veri odaklı işletmeler, 2015 yılından 2021 yılına kadar geçen 6 yıllık periyotta etkisini çok büyük bir şekilde arttırarak göstermektedir. (yaklaşık 333 milyar ABD dolarından 1,2 trilyon ABD dolarına) Veri bilimcileri, şirketlerin büyüklüklerine bakmaksızın her büyüklükteki şirketin kuruluşlarını, çeşitli bulgulara dayanarak analiz etmelerine yardımcı olmak için bir veri okyanusundan yararlı bilgileri çıkarmanın yollarını bulmalarına yardımcı olmakla birlikte, ilgili sonuçları bulmak için veri merkezli sorular sormaya, verileri analiz etmeye ve istatistik ve matematiği uygulamaya odaklanır.
Veri bilimi görevleri
Kümeleme
Veriler, bir canlı türünün özelliklerini tanımlar veya bir makinenin ne gibi sistemi olduğunu kaydeder. Her türlü nesne ve olgunun anlaşılması için ileri analiz, kararlar ve nihayetinde bir temel oluşturur. Bu veri analizlerinin sonucunda da bir gruplaşma veya kümeleme işlemi yapılması şarttır. Aynı grupta sınıflandırılan cisimler belirli benzer özellikler göstermelidir. Yeni bir nesneyi öğrenmek veya tanımlamak özelliklerini sınıflandırma konusunda insanlar için büyük önem taşır. Bu özellikleri benzerlik ve farklılıklarına göre diğer nesnelerle karşılaştırma yapılır. Diğer yandan, kümeleme tanımı üzerine bir fikir birliği olmamakla birlikte, "benzer özellikler gösteren nesnelerin birlikte gruplanması" şeklinde yorumlanabilir. Küme analizi, veri madenciliğinde önemli bir yere sahiptir. Benzerlik ölçüsüne dayanan koleksiyonların kümeler halinde örgütlenmesi problemini ele alır.
İlişkilendirme kuralları madenciliği
Veri madenciliğinde en çok kullanılan yöntemlerden biridir. Veri kümelerinde gizli olan örüntüleri ortaya çıkarmak için kullanılır. İlişkilendirme kuralları madenciliği, biyomedikal araştırmacılar içinde "Keşifsel Veri Analizi yapmak için ve veri kümelerindeki değişkenler nelerdir?" gibi soruların cevaplarını bulmak için yaygın olarak bu yöntemi kullanmaktadır.
Anomali algılama
Anomali algılama, bir veri kümesindeki tipik verilere uymayan örneklerin aranmasını ve tanımlanmasını içerir. Bu uygun olmayan örneklere genellikle anomaliler veya aykırı değerler denilir. Anormal durum tespiti genellikle, potansiyel dolandırıcılık faaliyetlerini tanımlamak ve soruşturmaları tetiklemek için finansal işlemlerin analizinde kullanılır. Anomali algılama akıllı telefonlar üzerinden bir örnekle belirtilebilir. Akıllı telefonların yaygınlaşması, kötü amaçlı uygulamaları da beraberinde getirmiştir. Son yıllarda kötü amaçlı yazılımlar Android telefonlar için büyük bir tehdit haline gelmiştir. Kötü amaçlı ağ davranışını tanımlamak üzere ağ trafiği analizi, veri madenciliği ile birleştirilebilir. Ağ trafiği özelliklerini ağ verilerinden çıkarmak için geliştirilen Apriori algoritması ile genel olarak operasyonel davranış tetikleyicileri aracılığıyla kötü amaçlı yazılım işlevleri ortaya çıkabilir. Oluşturulan model, bir anomaliyi etkili bir şekilde tespit edebilir, günlük akıllı telefon güvenlik kontrolü ve değerlendirmesi için kullanılabilir.
Tahmin
Bir tahmin modeli, bir girdi için bir etiket veya kategori olarak geri döndürdüğünde bir sınıflama modeli olarak bilinir. Sınıflama modelini eğitmek, her bir örneğin hedef olayın bu örnekte olup olmadığını belirtmek üzere etiketlendiği tarihi verileri gerektirir. Örneğin, müşteri sınıflandırması her müşteriye bir etiketin atandığı bir veri kümesi gerektirir. Veri seti, her bir müşteri için bu etiketi listeleyen, hedef özellik olarak bilinen bir öznitelik içerecektir.
Veri biliminin uygulandığı bazı alanlar
Sağlık alanındaki veri bilimi uygulamaları
Günümüzde klinik vakalara stratejik bir karar desteği sağlayabilmek için büyük veri yığınları içinden değerli verilerin kullanılmasına yönelik modeller geliştirilmekte ve bunların kullanım alanları gittikçe büyük verinin analiz edildiği yeni nesil klinik karar destek sistemleri, sağlık uzmanlarının kullanımına sunularak faydalı uygulamalar geliştirilebilmektedir.
İşletmecilik alanındaki veri bilimi uygulamaları
Perakende satış ve pazarlama için veri madenciliği uygulamalarının çoğu kolaylıkla kullanılabilmektedir. Tipik bir yaklaşım, satın alma ve işlem geçmişlerinin tanımları gibi verilerden yararlanarak müşterileri sınıflandırmak ya da kümelere ayırmaktır. Bu kümeler, bugün bile pratikte sıklıkla görülebilen A-B-C segmentlerinden çok daha iyi optimize edilmiş veri odaklı bölümler oluşturabilir. Müşterilerin segmentlere ayırmak, örneğin belirli satış veya pazarlama kanalları için müşterileri seçmek veya bu müşterilere veya potansiyel müşterilere yaklaşmak için en uygun sonraki en iyi eylemin hangisi olduğunu tahmin etmek gibi daha ileri analizler için önemli bir önkoşuldur.
Eğitim alanındaki veri bilimi uygulamaları
"Eğitimde veri madenciliği, eğitim araştırmaları içerisinde yer alan bilgisayar bilimi, istatistik, matematik gibi pek çok alanla ilişkisi bulunan disiplinler arası bir çalışma alanı olup eğitimde kullanılan bilgi ve iletişim teknolojileri ile üretilen verilerin, analiz edilerek eğitimde olan kişiler için anlamlı bilgilere dönüştürülmesini amaç edinmiştir. Oldukça yeni olan bu alanın eğitimciler için önemi büyüktür."
Finans alanındaki veri bilimi uygulamaları
"Finansal teknolojilerin gelişmesiyle birlikte 21. yüzyılda risk yönetimi, portföy yönetimi, tahmin ve trend analizleri gibi finansal alanlar, veri bilimi uygulamaları tarafından optimize edilmesiyle birlikte büyük önem kazanmıştır. Gelişen teknoloji sayesinde veri bilimciler, siber saldırıları kolayca tespit edebilir ve anormal işlemleri önceden engelleyebilir. Bankacılık sektöründe büyük yere sahip olan makine öğrenimi algoritmaları ve başarılı analizler ile kredi risk değerlendirmeleri otonom hale getirilebilmektedir. Bu gelişmeler, finans sektöründe daha güvenli, verimli ve etkili kararlar alınmasına olanak sağlamaktadır"
Veri bilimi alanındaki eğitim faaliyetleri
Eğitim ile veri bilimi arasında özel bir ilişki söz konusudur. Öğrenme süreci ve eğitim kurumları, zengin veriler içermektedir ve toplum için büyük bir önem taşımaktadır. Bu nedenle eğitim, özellikle veri bilimi için çok uygun bir alandır. Veri bilimi, işletmelerin bilgisayarları ve bilişim teknolojilerinin iş süreçlerini değiştirmesiyle benzer bir şekilde devrim yapma potansiyeline sahip yeni bir paradigmadır. Bu yeni zorluklar, teknolojik ilerlemelere ayak uydurmak ve onların toplumun yararına şekillendirmek için büyük fırsatlar sunarken aynı zamanda üniversitelere ve genel olarak yükseköğrenime sorumluluklar yükler. Aşağıda Türkiye'de ve Dünyada veri bilimi alanındaki bazı eğitim faaliyetleri görülmektedir.
Üniversite | Yüksek Lisans Program Adı | Ülke |
---|---|---|
Bahçeşehir Üniversitesi | Büyük Veri Analitiği ve Yöntemi | Türkiye |
İstanbul Teknik Üniversitesi | Büyük Veri ve İş Analitiği | Türkiye |
Illionis University | Veri Bilimi Alanında Bilgisayar Bilimleri | ABD |
Carnegio Mellon University | İş Zekası ve Veri Analizi | Avustralya |
Castelldefels School of Social Science | Veri Bilimi ve İş Analitiği | İspanya |
Arden University | Veri Analizi ve Kurumsal Mimari | Birleşik Krallık |
Universite Cote D'Azur | Yüksek Performans Bilgisi ve Veri Bilimleri | Fransa |
Yeditepe Üniversitesi | Veri Bilimi | Türkiye |
Veri biliminde etik ve veri koruma
İnternetten veya mağazalardan alışveriş yaparken satıcı firmalar tarafından kullanıcılara belirtilen, ancak kullanıcılar tarafından pek üstünde durulmayan, şahsi verilerin aktarıldığı bir sistem mevcuttur. Bununla ilgili 7 Nisan 2016 tarihinde Kişisel Verilerin Korunması KanunuResmî Gazete’de yayınlanmıştır. Özellikle web üzerinden, e-ticaret yoluyla üyelerden veya mağazalar yoluyla ziyaretçilerden gelen pek çok veri toplanmaktadır. Bu gizlilik ve üyelik bilgilendirme sözleşmeleri okunmalı ve bilgilerimizin depolandığı unutulmamalıdır.
“Türkiye’de 24.03.2016 tarihinde TBMM Genel Kurulu’nda kabul edilen “6698 sayılı Kişisel Verilerin Korunması Kanunu” 07.04.2016 tarihli 29677 sayılı Resmi Gazete’de yayımlanarak yürürlüğe girmiştir.” Kanun kapsamında, kişisel verilerin işlenmesinde başta özel hayatın gizliliği olmak üzere kişilerin temel hak ve özgürlüklerinin korunması ile ilgili esasların düzenlenmesi amaçlanmaktadır. Kişisel verilerin korunması konusundaki çalışmalar devam etmektedir. Bilgi ve iletişim teknolojilerdeki gelişmeler nedeniyle dünyada sürekli olarak yön değiştirmekte ve sosyal, iktisadi açılardan uluslararası bir konuma gelmektedir. Başta sosyal ağlar, bulut bilişim, büyük veri analizi ve küreselleşmenin getirdiği etkilerle pek çok etken kişisel verilere erişimi ve verilerin toplanıp kullanılmasını değiştirmiş ve kolaylaştırmıştır.
Kaynakça
- ^ "Arşivlenmiş kopya". 21 Ağustos 2018 tarihinde kaynağından . Erişim tarihi: 16 Ocak 2020.
- ^ International Federation of Classification Societies. Conference (Mart 1998). Data Science, Classification, and Related Methods (İngilizce). Springer. ISBN .
- ^ Tony Hey (2009). The Fourth Paradigm (İngilizce). Microsoft Press. ISBN . 20 Mart 2017 tarihinde kaynağından . Erişim tarihi: 16 Ocak 2020.
- ^ "Arşivlenmiş kopya". 20 Haziran 2019 tarihinde kaynağından . Erişim tarihi: 16 Ocak 2020.
- ^ a b c d e f g h Sütcü, Cem S. ve Aytekin, Ç. (2018). Veri Bilimi. İstanbul: Paloma Yayınevi.
- ^ a b Akdeniz, F. (2016). "İstatistikte Yeni Eğilimler ve Gelişmeler". Sosyal Bilimler Araştırma Dergisi. 4 (4). s. 1-11. 21 Mart 2020 tarihinde kaynağından .
- ^ a b Stadelmann, T.S., Stockinger, K., Braschler, M., Cieliebak, M., Baudinot, G., Dürr, O. ve Ruckstuhl, A. Applied Data Science in Europe: Challenges for Academia in Keeping Up with a Highly Demanded Topic (PDF). 9th European Computer Science Summit (İngilizce). 19 Ağustos 2016 tarihinde kaynağından (PDF).
- ^ Bruce, P. ve Bruce, A (2017). Practical Statistics for Data Scientists (PDF). Sebastopol, CA: O’Reilly Media. 8 Aralık 2020 tarihinde kaynağından (PDF).
- ^ a b Press, Gill. (28 Mayıs 2013). "A Very Short History Of Data Science". Forbes (İngilizce). 23 Ocak 2021 tarihinde kaynağından . Erişim tarihi: 13 Ocak 2021.
- ^ Paramita (Guha) Ghosh (9 Ağustos 2018). . 13 Ağustos 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ Martin, Sophia (17 Eylül 2019). . 12 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ a b Kelleher, J.D. ve Tierney, B. (2018). Data Science. Londra: The MIT Press.
- ^ Cem Sefa Sütçü & Hikmet Tosyalı. "Klinik Karar Destek Sistemleri" (PDF). Nobel Tıp Kitapevleri. s. 99. Erişim tarihi: 14 Haziran 2016.
- ^ Markus Hofmann & Ralf Klinkenberg (12 Kasım 2013). RapidMiner Data Mining Use Cases and Business Analytics Applications. New York: CRC Press. s. 525. 15 Ocak 2021 tarihinde kaynağından .
- ^ Hakan Güldal & Yılmaz Çakıcı. "Eğitsel Veri Madenciliği". Balkan Eğitim Araştırmaları. Erişim tarihi: 16 Kasım 2017.
- ^ Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big impact. MIS quarterly, 36(4), 1165-1188.https://misq.umn.edu/misq/downloads/download/editorial/567/
- ^ . Keystone Master Studies. 11 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 13 Ocak 2021.
- ^ "Kişisel Verileri Koruma Kurumu" (PDF). Kişisel Verilerin Korunması Kanunu. 57 (29677). 7 Nisan 2016. 10 Ocak 2021 tarihinde kaynağından (PDF).
- ^ Ayşe Nur Akıncı. "Avrupa Birliği Genel Veri Koruma Tüzüğünün Getirdiği Yenilikler ve Türk Hukuku Bakımından Değerlendirilmesi" (PDF). Ankara Kalkınma Bakanlığı, 2968. s. 26. 16 Kasım 2017 tarihinde kaynağından (PDF). Erişim tarihi: 10 Haziran 2017.
- ^ Ayşe Nur Akıncı. "Avrupa Birliği Genel Veri Koruma Tüzüğünün Getirdiği Yenilikler ve Türk Hukuku Bakımından Değerlendirilmesi" (PDF). Ankara Kalkınma Bakanlığı, 2968. s. 2. 16 Kasım 2017 tarihinde kaynağından (PDF). Erişim tarihi: 10 Haziran 2017.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Veri bilimi yapilandirilmis ve yapilandirilmamis verilerden bilgi ve ongoru elde etmek icin bilimsel yontemleri surecleri algoritmalari ve sistemleri kullanan cok disiplinli bir alandir Veri bilimi veri madenciligi ve buyuk verilerle iliskilidir Veri bilimi gercek olaylari verilerle anlamak ve analiz etmek icin istatistikleri veri analizini makine ogrenimini ve ilgili yontemlerini birlestirmek icin kullanilan bir kavramdir Matematik istatistik bilgisayar bilimi ve bilgi bilimi baglamindan bircok teknik ve teori kullanir Turing odullu Jim Gray veri bilimini bir dorduncu paradigma bilimi ampirik teorik hesaplamali ve simdi veri odakli olarak tanimlar 2015 yilinda Amerikan Istatistik Kurumu veritabani yonetimi istatistik ve makine ogrenimi ve dagitilan ve paralel sistemleri uc temel meslek toplulugu olarak tanimladi Veri bilimi bir dizi ilkeyi cesitli algoritmalari olaylari ve buyuk veri kumelerinden gelen kullanisli kaliplari ayiklamak icin gerekli surecleri kapsamaktadir Bununla birlikte veri bilimi bu sureclerde veri analizini istatistikleri makine ogrenmesi ve veri madenciligi gibi alanlari ve bunlarla ilgili bircok yontemi birlestirmek icin kullanilan bir kavram olarak belirtilir Veri bilimi makine ogrenmesi ve veri madenciligi kavramlari siklikla birbirleri yerine kullanilmaktadir Bu disiplinler arasindaki ortaklik verilerin analizi yoluyla karar vermenin iyilestirilmesini saglamaktir Veri bilimi bu alanlardan beslenmekle birlikte daha genis bir kapsama alanina sahiptir Makine ogrenmesi veriden oruntu cikarma algoritmalarinin tasarimi ve degerlendirmesine de odaklanir Veri madenciligi genellikle yapilandirilmis verilerin analizi ile ilgilenir ve ticari uygulamalara vurgu yapar Veri bilimi ise tum bu hususlari dikkate almaktadir Veri bilimi ile ilgili onemli bazi kavramlardan Yapilandirilmis veri en basit anlamiyla bir Excel tablosu olarak dusunulebilir Baska bir deyisle buradaki her bir sutundaki veri sutun basliginin icerigine mutlaka uygun bir bicimde yapisi belli olan bir deger icerir Yapilandirilmis verilerde girdi verileri sayisal veya kategorik olan belirli bir degiskenler kumesi icin veri noktalarindan olusur Yapilandirilmamis veriler herhangi bir dilde yazilan metin dil bilgisi kurallarina tabi olsa da yapilandirilmis verileri analiz ederken sahip oldugumuz acikca tanimlanmis degerlerden yoksundur Gunumuzdeki verilerin cogu yapilandirilmamis bicimdedir Resim dosyalari ses dosyalari PDF dosyalar Word gibi metin tabanli dosyalar elektronik postalar gibi veriler yapilandirilmamis bicimdeki verilerdir Diger yandan metin veri tabanlarinda saklanan veriler ornegin dokuman basligi yazar isimleri tarih tur gibi bir kisim yapisal olan ancak icerik gibi buyuk oranda yapisal olmayan alanlar icerebilir Bu durumda ise veri yari yapilandirilmis bir hal alir Veri analisti kavrami ise is dunyasina yapilandirilmis veri bicimi ile girmistir Gorev tanimi veri tabanlarindan belirli araclar yardimiyla sonuclar uretmek ve bunlari raporlamaktir Veri bilimciler ise artik buyuk veri olarak adlandirilan veri kumesi ile birlikte yapilandirilmamis veri bicimi de organizasyonlarin veri tabanlarinda yer almaktadir Gunumuzde Facebook Twitter gibi sosyal aglar Google Yahoo gibi bazi portaller veri bilimcilerle calismaktadir Veri bilimciler farkli veri kaynaklarindan beslenen buyuk veri yonetimi icin hipotezler kurup bu hipotezlerin dogrulugu ya da yanlisligini test etmek icin arastirmalar yapar Bu dogrultuda veri odakli onemli uygulamalar gelistirirler Veri bilimciler bircok disipline dayanan essiz bir beceri setine sahip olmalidirlar Sektorden gelen taleplere dayanarak yeni bir is profili olarak veri bilimci ismi cesitli endustriler arasinda yaygin olarak farklilasan bir bicimde ortaya cikmistir Veri bilimcilerin beceri seti cok yonludur Analitikler veri yonetimi sanat ve tasarim girisimcilik bilgisayar bilimi gibi alanlarda tecrubeyi icermektedir Veri biliminin tarihiVeri biliminin istatistikle yakindan bir iliskisi soz konusudur 20 yuzyilin onemli istatistikcilerinden birisi olan John W Tukey Istatistik matematigine daha fazla odaklanildigini ama verilerin analizi konusunda yeteri kadar odaklanilmadigini dusunmus ve buna karsi bir hareket ongormustur 1977 yilinda Tukey test etmek icin ve hipotezler onermek icin verilerin kullanilmasina daha fazla vurgu yapilmasi gerektigini ve Kesifsel Veri Analizi ile Dogrulayici Veri Analizi nin yan yana ilerleyebilecegini ve ilerlemesi gerektigini savunarak Kesif Verileri Analizini yayinlamistir Veri Bilimi kavrami gunumuzde daha yaygin bir sekilde kullanilmaya baslanmistir Bu yaygin kullanimi saglayan bazi kaynaklar vardir ve bu kaynaklarla birlikte kitlelerin erisimi de daha kolay hale gelmistir Bunlardan ikisi 2002 de Bilim ve Teknoloji Veri Komitesi tarafindan baslatilan Data Science Journal ve Columbia Universitesi tarafindan 2003 yilinda baslatilan The Journal of Data Science dir Veri bilimi sureciVeri bilimi veriden elde edilen bilginin genellestirilebilir cikarimlarinin arastirilmasidir Ya da veri toplama ayiklama ve analiz etme gibi sorulari formullestirme surecine dayanir Genel olarak veri bilimi sureci ardisiktir ve farkli bilesenlerle birlikte devam eder Izlenen adimlar ise su sekildedir Ilgilenilen soruyu tanimla Veriyi elde et Veriyi ayikla Veriyi kontrol et Istatistiksel modeller uydur Sonuclari duyur Analizi yeniden olusturabilecek sekilde yap Veri bilimi sureci dongusel ve amac islem sonrasinda elde edilen bilgiler sonucunda karar verme asamasina ulasmaktir Veri biliminin etkileriVeri Bilimi alani stratejik bir avantaj icin problemleri cozmek amaciyla en son veri teknolojilerinin nasil kullanildigi acisindan onemli bir gecis noktasindadir Veri bilimciler son zamanlarda ve ozellikle gelecekte islerini cok farkli sekilde yurutmeye devam etmislerdir Buyuk veri algoritma ekonomisi Bulut kuresel isletmelerde ana akim olmaya devam ederken isletmeler egrinin onunde kalmak icin en son rekabet stratejilerini benimsemeye devam etmektedir Bu gecisin en carpici iki ozelligi veri sureclerinin artan otomasyonu ve anlik analitik cozumlerinin sunulmasidir Veri odakli isletmeler 2015 yilindan 2021 yilina kadar gecen 6 yillik periyotta etkisini cok buyuk bir sekilde arttirarak gostermektedir yaklasik 333 milyar ABD dolarindan 1 2 trilyon ABD dolarina Veri bilimcileri sirketlerin buyukluklerine bakmaksizin her buyuklukteki sirketin kuruluslarini cesitli bulgulara dayanarak analiz etmelerine yardimci olmak icin bir veri okyanusundan yararli bilgileri cikarmanin yollarini bulmalarina yardimci olmakla birlikte ilgili sonuclari bulmak icin veri merkezli sorular sormaya verileri analiz etmeye ve istatistik ve matematigi uygulamaya odaklanir Veri bilimi gorevleriKumeleme Veriler bir canli turunun ozelliklerini tanimlar veya bir makinenin ne gibi sistemi oldugunu kaydeder Her turlu nesne ve olgunun anlasilmasi icin ileri analiz kararlar ve nihayetinde bir temel olusturur Bu veri analizlerinin sonucunda da bir gruplasma veya kumeleme islemi yapilmasi sarttir Ayni grupta siniflandirilan cisimler belirli benzer ozellikler gostermelidir Yeni bir nesneyi ogrenmek veya tanimlamak ozelliklerini siniflandirma konusunda insanlar icin buyuk onem tasir Bu ozellikleri benzerlik ve farkliliklarina gore diger nesnelerle karsilastirma yapilir Diger yandan kumeleme tanimi uzerine bir fikir birligi olmamakla birlikte benzer ozellikler gosteren nesnelerin birlikte gruplanmasi seklinde yorumlanabilir Kume analizi veri madenciliginde onemli bir yere sahiptir Benzerlik olcusune dayanan koleksiyonlarin kumeler halinde orgutlenmesi problemini ele alir Iliskilendirme kurallari madenciligi Veri madenciliginde en cok kullanilan yontemlerden biridir Veri kumelerinde gizli olan oruntuleri ortaya cikarmak icin kullanilir Iliskilendirme kurallari madenciligi biyomedikal arastirmacilar icinde Kesifsel Veri Analizi yapmak icin ve veri kumelerindeki degiskenler nelerdir gibi sorularin cevaplarini bulmak icin yaygin olarak bu yontemi kullanmaktadir Anomali algilama Anomali algilama bir veri kumesindeki tipik verilere uymayan orneklerin aranmasini ve tanimlanmasini icerir Bu uygun olmayan orneklere genellikle anomaliler veya aykiri degerler denilir Anormal durum tespiti genellikle potansiyel dolandiricilik faaliyetlerini tanimlamak ve sorusturmalari tetiklemek icin finansal islemlerin analizinde kullanilir Anomali algilama akilli telefonlar uzerinden bir ornekle belirtilebilir Akilli telefonlarin yayginlasmasi kotu amacli uygulamalari da beraberinde getirmistir Son yillarda kotu amacli yazilimlar Android telefonlar icin buyuk bir tehdit haline gelmistir Kotu amacli ag davranisini tanimlamak uzere ag trafigi analizi veri madenciligi ile birlestirilebilir Ag trafigi ozelliklerini ag verilerinden cikarmak icin gelistirilen Apriori algoritmasi ile genel olarak operasyonel davranis tetikleyicileri araciligiyla kotu amacli yazilim islevleri ortaya cikabilir Olusturulan model bir anomaliyi etkili bir sekilde tespit edebilir gunluk akilli telefon guvenlik kontrolu ve degerlendirmesi icin kullanilabilir Tahmin Bir tahmin modeli bir girdi icin bir etiket veya kategori olarak geri dondurdugunde bir siniflama modeli olarak bilinir Siniflama modelini egitmek her bir ornegin hedef olayin bu ornekte olup olmadigini belirtmek uzere etiketlendigi tarihi verileri gerektirir Ornegin musteri siniflandirmasi her musteriye bir etiketin atandigi bir veri kumesi gerektirir Veri seti her bir musteri icin bu etiketi listeleyen hedef ozellik olarak bilinen bir oznitelik icerecektir Veri biliminin uygulandigi bazi alanlarSaglik alanindaki veri bilimi uygulamalari Gunumuzde klinik vakalara stratejik bir karar destegi saglayabilmek icin buyuk veri yiginlari icinden degerli verilerin kullanilmasina yonelik modeller gelistirilmekte ve bunlarin kullanim alanlari gittikce buyuk verinin analiz edildigi yeni nesil klinik karar destek sistemleri saglik uzmanlarinin kullanimina sunularak faydali uygulamalar gelistirilebilmektedir Isletmecilik alanindaki veri bilimi uygulamalari Perakende satis ve pazarlama icin veri madenciligi uygulamalarinin cogu kolaylikla kullanilabilmektedir Tipik bir yaklasim satin alma ve islem gecmislerinin tanimlari gibi verilerden yararlanarak musterileri siniflandirmak ya da kumelere ayirmaktir Bu kumeler bugun bile pratikte siklikla gorulebilen A B C segmentlerinden cok daha iyi optimize edilmis veri odakli bolumler olusturabilir Musterilerin segmentlere ayirmak ornegin belirli satis veya pazarlama kanallari icin musterileri secmek veya bu musterilere veya potansiyel musterilere yaklasmak icin en uygun sonraki en iyi eylemin hangisi oldugunu tahmin etmek gibi daha ileri analizler icin onemli bir onkosuldur Egitim alanindaki veri bilimi uygulamalari Egitimde veri madenciligi egitim arastirmalari icerisinde yer alan bilgisayar bilimi istatistik matematik gibi pek cok alanla iliskisi bulunan disiplinler arasi bir calisma alani olup egitimde kullanilan bilgi ve iletisim teknolojileri ile uretilen verilerin analiz edilerek egitimde olan kisiler icin anlamli bilgilere donusturulmesini amac edinmistir Oldukca yeni olan bu alanin egitimciler icin onemi buyuktur Finans alanindaki veri bilimi uygulamalari Finansal teknolojilerin gelismesiyle birlikte 21 yuzyilda risk yonetimi portfoy yonetimi tahmin ve trend analizleri gibi finansal alanlar veri bilimi uygulamalari tarafindan optimize edilmesiyle birlikte buyuk onem kazanmistir Gelisen teknoloji sayesinde veri bilimciler siber saldirilari kolayca tespit edebilir ve anormal islemleri onceden engelleyebilir Bankacilik sektorunde buyuk yere sahip olan makine ogrenimi algoritmalari ve basarili analizler ile kredi risk degerlendirmeleri otonom hale getirilebilmektedir Bu gelismeler finans sektorunde daha guvenli verimli ve etkili kararlar alinmasina olanak saglamaktadir Veri bilimi alanindaki egitim faaliyetleriEgitim ile veri bilimi arasinda ozel bir iliski soz konusudur Ogrenme sureci ve egitim kurumlari zengin veriler icermektedir ve toplum icin buyuk bir onem tasimaktadir Bu nedenle egitim ozellikle veri bilimi icin cok uygun bir alandir Veri bilimi isletmelerin bilgisayarlari ve bilisim teknolojilerinin is sureclerini degistirmesiyle benzer bir sekilde devrim yapma potansiyeline sahip yeni bir paradigmadir Bu yeni zorluklar teknolojik ilerlemelere ayak uydurmak ve onlarin toplumun yararina sekillendirmek icin buyuk firsatlar sunarken ayni zamanda universitelere ve genel olarak yuksekogrenime sorumluluklar yukler Asagida Turkiye de ve Dunyada veri bilimi alanindaki bazi egitim faaliyetleri gorulmektedir 2018 2019 Egitim Doneminde Veri Bilimi Alaninda Yuksek Lisans Duzeyinde Egitim Veren Bazi Universiteler ve Bu Universitelerin Yuksek Lisans Programlari Universite Yuksek Lisans Program Adi UlkeBahcesehir Universitesi Buyuk Veri Analitigi ve Yontemi TurkiyeIstanbul Teknik Universitesi Buyuk Veri ve Is Analitigi TurkiyeIllionis University Veri Bilimi Alaninda Bilgisayar Bilimleri ABDCarnegio Mellon University Is Zekasi ve Veri Analizi AvustralyaCastelldefels School of Social Science Veri Bilimi ve Is Analitigi IspanyaArden University Veri Analizi ve Kurumsal Mimari Birlesik KrallikUniversite Cote D Azur Yuksek Performans Bilgisi ve Veri Bilimleri FransaYeditepe Universitesi Veri Bilimi TurkiyeVeri biliminde etik ve veri korumaInternetten veya magazalardan alisveris yaparken satici firmalar tarafindan kullanicilara belirtilen ancak kullanicilar tarafindan pek ustunde durulmayan sahsi verilerin aktarildigi bir sistem mevcuttur Bununla ilgili 7 Nisan 2016 tarihinde Kisisel Verilerin Korunmasi KanunuResmi Gazete de yayinlanmistir Ozellikle web uzerinden e ticaret yoluyla uyelerden veya magazalar yoluyla ziyaretcilerden gelen pek cok veri toplanmaktadir Bu gizlilik ve uyelik bilgilendirme sozlesmeleri okunmali ve bilgilerimizin depolandigi unutulmamalidir Turkiye de 24 03 2016 tarihinde TBMM Genel Kurulu nda kabul edilen 6698 sayili Kisisel Verilerin Korunmasi Kanunu 07 04 2016 tarihli 29677 sayili Resmi Gazete de yayimlanarak yururluge girmistir Kanun kapsaminda kisisel verilerin islenmesinde basta ozel hayatin gizliligi olmak uzere kisilerin temel hak ve ozgurluklerinin korunmasi ile ilgili esaslarin duzenlenmesi amaclanmaktadir Kisisel verilerin korunmasi konusundaki calismalar devam etmektedir Bilgi ve iletisim teknolojilerdeki gelismeler nedeniyle dunyada surekli olarak yon degistirmekte ve sosyal iktisadi acilardan uluslararasi bir konuma gelmektedir Basta sosyal aglar bulut bilisim buyuk veri analizi ve kuresellesmenin getirdigi etkilerle pek cok etken kisisel verilere erisimi ve verilerin toplanip kullanilmasini degistirmis ve kolaylastirmistir Kaynakca Arsivlenmis kopya 21 Agustos 2018 tarihinde kaynagindan Erisim tarihi 16 Ocak 2020 International Federation of Classification Societies Conference Mart 1998 Data Science Classification and Related Methods Ingilizce Springer ISBN 9784431702085 Tony Hey 2009 The Fourth Paradigm Ingilizce Microsoft Press ISBN 978 0 9825442 0 4 20 Mart 2017 tarihinde kaynagindan Erisim tarihi 16 Ocak 2020 Arsivlenmis kopya 20 Haziran 2019 tarihinde kaynagindan Erisim tarihi 16 Ocak 2020 a b c d e f g h Sutcu Cem S ve Aytekin C 2018 Veri Bilimi Istanbul Paloma Yayinevi a b Akdeniz F 2016 Istatistikte Yeni Egilimler ve Gelismeler Sosyal Bilimler Arastirma Dergisi 4 4 s 1 11 21 Mart 2020 tarihinde kaynagindan a b Stadelmann T S Stockinger K Braschler M Cieliebak M Baudinot G Durr O ve Ruckstuhl A Applied Data Science in Europe Challenges for Academia in Keeping Up with a Highly Demanded Topic PDF 9th European Computer Science Summit Ingilizce 19 Agustos 2016 tarihinde kaynagindan PDF Bruce P ve Bruce A 2017 Practical Statistics for Data Scientists PDF Sebastopol CA O Reilly Media 8 Aralik 2020 tarihinde kaynagindan PDF a b Press Gill 28 Mayis 2013 A Very Short History Of Data Science Forbes Ingilizce 23 Ocak 2021 tarihinde kaynagindan Erisim tarihi 13 Ocak 2021 Paramita Guha Ghosh 9 Agustos 2018 13 Agustos 2018 tarihinde kaynagindan arsivlendi Erisim tarihi 13 Ocak 2021 Martin Sophia 17 Eylul 2019 12 Ocak 2021 tarihinde kaynagindan arsivlendi Erisim tarihi 13 Ocak 2021 a b Kelleher J D ve Tierney B 2018 Data Science Londra The MIT Press Cem Sefa Sutcu amp Hikmet Tosyali Klinik Karar Destek Sistemleri PDF Nobel Tip Kitapevleri s 99 Erisim tarihi 14 Haziran 2016 Markus Hofmann amp Ralf Klinkenberg 12 Kasim 2013 RapidMiner Data Mining Use Cases and Business Analytics Applications New York CRC Press s 525 15 Ocak 2021 tarihinde kaynagindan Hakan Guldal amp Yilmaz Cakici Egitsel Veri Madenciligi Balkan Egitim Arastirmalari Erisim tarihi 16 Kasim 2017 Chen H Chiang R H amp Storey V C 2012 Business intelligence and analytics From big data to big impact MIS quarterly 36 4 1165 1188 https misq umn edu misq downloads download editorial 567 Keystone Master Studies 11 Ocak 2021 tarihinde kaynagindan arsivlendi Erisim tarihi 13 Ocak 2021 Kisisel Verileri Koruma Kurumu PDF Kisisel Verilerin Korunmasi Kanunu 57 29677 7 Nisan 2016 10 Ocak 2021 tarihinde kaynagindan PDF Ayse Nur Akinci Avrupa Birligi Genel Veri Koruma Tuzugunun Getirdigi Yenilikler ve Turk Hukuku Bakimindan Degerlendirilmesi PDF Ankara Kalkinma Bakanligi 2968 s 26 16 Kasim 2017 tarihinde kaynagindan PDF Erisim tarihi 10 Haziran 2017 Ayse Nur Akinci Avrupa Birligi Genel Veri Koruma Tuzugunun Getirdigi Yenilikler ve Turk Hukuku Bakimindan Degerlendirilmesi PDF Ankara Kalkinma Bakanligi 2968 s 2 16 Kasim 2017 tarihinde kaynagindan PDF Erisim tarihi 10 Haziran 2017