Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.
Açıklama
Normalde, programlar arasında veri transferi bilgisayarlar değil, insanlar tarafından otomatik işlenmesi için uygun veri yapılarını kullanılarak gerçekleştirilir. Böyle bir kavşak biçimleri ve protokolleri genellikle rijit kolayca çözümlenir, iyi belgelenmiş, yapılandırılmış ve en az belirsizlik devam edilmektedir . Çoğu zaman, bu yayınlar tüm insan tarafından okunabilir değil.
Böylece, düzenli ayrıştırma gelen kazıma verileri ayıran unsur kazınarak olan çıkış yerine başka bir programa girdi olarak daha bir son kullanıcıya ekranda yönelik olduğu ve bu nedenle genellikle belgelenmiş ne uygun ayrıştırma yapılandırılmış ne olduğunu. Veriler genellikle ikili veri (genellikle görüntü veya multimedya veri ), görüntü biçimlendirme, gereksiz etiketler, gereksiz yorum veya ilgisiz ya da otomatik işleme engelleyen diğer bilgileri görmezden içerir kazıma .
Veri kazıma en sık mevcut donanım ile uyumlu olan başka hiçbir mekanizmaya sahip bir eski sistem ya arabirime yapılır ya da daha uygun bir API sağlamaz bir üçüncü taraf sisteme arayüz . İkinci durumda, üçüncü taraf sistemi operatör genellikle ekran nedeniyle böyle yüksek sistem yükü, reklam gelir kaybı veya bilgi içeriğinin kontrol kaybı gibi nedenlerle, istenmeyen kazıma görürsünüz .
Veri kazıma genellikle genellikle sadece veri değişimi için başka bir mekanizma mevcut bir " son çare " olarak kullanılan bir ad hoc, inelegant tekniği, kabul edilir . Kenara yüksek programlama ve işleme yükü gelen, insani tüketim amaçlı çıkış görüntüler sık sık sık yapısını değiştirmek . İnsanlar kolayca başa çıkabilir, ancak saçma bildirebilir bir bilgisayar programı, belirli bir formatta veri okumak veya belirli bir yerden ve geçerliliği için onun sonuçlarını nasıl denetleneceği hiçbir bilgi ile söylendi oylandı.
Ekran kazıma
Ekran kazıma normalde yerine Web kazıma gibi verileri ayrıştırma, bir kaynaktan gelen görsel verilerin programatik koleksiyonu ile ilişkilidir. Başlangıçta, ekran bilgisayar ekranı terminalin ekrandan metin veri okuma uygulamasına atıfta kazıma . Bu işlem genellikle, yardımcı bağlantı noktası üzerinden veya başka bir giriş noktasına, bir bilgisayar sisteminin, terminal çıkış bağlantı noktasını terminalin okuma hafızası ile yapılmıştır. Terimi ekran kazıma de yaygın veri iki yönlü değişimi ifade etmek için kullanılır . Kontrol programı kullanıcı arayüzü gezinirken ya da kontrol programı anlamına bir arabirim veri giriyor daha karmaşık senaryolar insan tarafından kullanılmak üzere burada basit vakalar olabilir.
Bilgisayar veri işleme şafak - klasik bir ekran kazıyıcı somut bir örnek olarak, 1960'ların varsayımsal eski sistem kalma düşünün. O dönemin kullanıcı arabirimleri Bilgisayar, genellikle sanal tele yazıcılar çok daha fazla değildi, sadece metin tabanlı aptal terminalleri idi (bu sistemler çeşitli nedenlerle, hala kullanımda bugün). Daha modern sistemlere böyle bir sistem arayüzü arzusu yaygındır. Bir sağlam bir çözüm genellikle kaynak kodu, sistem dokümantasyonu, API'ler ya da 50 yaşındaki bir bilgisayar sistemi deneyimi olan programcılar olarak artık şeyler, gerektirecektir. Bu gibi durumlarda, tek çözümdür bir terminalde bir kullanıcı olmak "miş gibi" ekran kazıyıcı yazmak olabilir. Ekran kazıyıcı, istenen veri ayıklamak, eski kullanıcı arayüzü gezinmek için gerekli tuş vuruşlarını, süreç ortaya çıkan görüntü çıkış taklit, Telnet üzerinden eski sisteme bağlanmak ve modern bir sisteme geçmek olabilir. Örneğin değişim kontrolü, güvenlik, kullanıcı yönetimi, veri koruma, operasyonel denetim, yük dengeleme ve kuyruk yönetimi, vb - - yönetişim ve büyük bir kuruluş tarafından gerekli kontrol sağlayan bir platform üzerine inşa edilen bu tip (A sofistike ve esnek uygulama, olabilir Robotik süreç otomasyonu yazılımının bir örneği olduğu söylenebilir.)
1980'lerde, Reuters, Telerate ve Quotron finansal veri sağlayıcıları, bir insan okuyucu yönelik 24 × 80 biçiminde veri görüntülenir . Bu veriler, özellikle yatırım bankaları, kullanıcıları yakalamak ve verileri tekrar anahtarlama olmadan ticaret kararları için hesaplamalar içine dahil edilmesi için sayısal veri olarak bu karakter verileri dönüştürmek için uygulama yazdı. Sonuçlar kağıt parçalayıcı geçtik hayal olabilir çünkü özellikle İngiltere'de bu uygulama için ortak terim, sayfa parçalama oldu. İçten Reuters VAX / VMS üzerinde gelişmiş bir bilgisayar sistemi çalıştıran, bu dönüşüm süreci için ' logicized ' terimini kullanılan Logicize denilenr.
Daha modern ekran kazıma teknikleri ekrandan bitmap verilerini yakalama ve bir OCR motoru ile çalışan ya da bazı özel otomatik test sistemleri için, beklenen sonuçlara karşı ekranın bitmap verilerini eşleşen içerir . Bu programlı altta yatan programlama nesnelerine başvuruları alarak grafik kontrolleri sorgulama ile GUI uygulamaları durumunda kombine edilebilir . Web kazıma
Web kazıma
Web sayfaları, metin tabanlı mark-up dilleri ( HTML ve XHTML ) kullanılarak inşa ve sık sık metin biçiminde yararlı veri zenginliği içerirler . Ancak, çoğu web sayfaları, insan son kullanıcılar için değil, otomatik kullanım kolaylığı için tasarlanmıştır. Bu nedenle, web içeriği kazımak araç kitleri oluşturulmuştur. Bir web kazıyıcı bir web sitesine veri ayıklamak için bir API . Amazon AWS ve Google gibi şirketler, son kullanıcılara ücretsiz olarak mevcut araçları, hizmet ve kamu veri kazıma web sağlar. Web kazıma yeni formları veri web sunucularından beslemeleri dinleme içerir . Örneğin, JSON yaygın istemci ve web sunucusu arasında bir taşıma depolama mekanizması olarak kullanılır.
Son zamanlarda, şirketler otomatik olarak yararlı bilgiler elde etmek için bir web sayfasını görüntülerken oluşur insan işleme simülasyonu için DOM ayrıştırma, bilgisayar görme ve doğal dil işleme teknikleri kullanarak güveniyor web kazıma sistemleri geliştirdik.
Rapor madencilik
Rapor madencilik insan okunabilir bilgisayar raporları veri çıkarma olduğunu. Geleneksel veri çekme bir çalışma kaynağı sistemi, uygun bağlantı standartları veya bir API ve genellikle karmaşık sorgulama bağlantısı gerektirir. Kaynak sisteminin standart raporlama seçenekleri kullanarak, bir biriktirme dosyası yerine bir yazıcıya çıktı yönlendirerek, statik raporlar rapor madencilik yoluyla çevrimdışı analiz için uygun oluşturulabilir. Bu yaklaşım, iş saatlerinde yoğun CPU kullanımını önlemek ERP müşterileri için son kullanıcı lisans maliyetlerini en aza indirebilirsiniz ve çok hızlı prototip ve özel raporların geliştirilmesi sunabilir. Veri kazıma ve web dinamik çıkışı ile etkileşim içeren kazıma Oysa, rapor madencilik gibi HTML, PDF veya metin olarak, bir insan okunabilir formatta dosyalardan veri ayıklanması içerir. Bunlar kolayca bir yazıcıya veri besleme durdurarak hemen her sistemden elde edilebilir. Bu yaklaşım, kaynak sistemine bir API programlamak gerek kalmadan veriyi elde etmek hızlı ve basit bir yol sağlayabilir.
Ayrıca bakınız
Kaynakça
- ^ . Bot Gurus. 14 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ocak 2016.
- ^ Contributors Fret About Reuters’ Plan To Switch From Monitor Network To IDN 13 Mart 2016 tarihinde Wayback Machine sitesinde ., FX Week, 02 Nov 1990
- ^ "Diffbot aims to make it easier for apps to read Web pages the way humans do". MIT Technology Review. 1 Şubat 2015 tarihinde kaynağından . Erişim tarihi: 1 Aralık 2014.
- ^ "This Simple Data-Scraping Tool Could Change How Apps Are Made". WIRED. 13 Ocak 2016 tarihinde kaynağından . Erişim tarihi: 8 Mayıs 2015.
Konuyla ilgili yayınlar
- Hemenway, Kevin and Calishain, Tara. Spidering Hacks. Cambridge, Massachusetts: O'Reilly, 2003. ISBN 0-596-00577-6.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Veri kazima bir bilgisayar programi baska bir programdan gelen insanlar tarafindan okunabilir olan cikis veri ayiklayan bir tekniktir AciklamaNormalde programlar arasinda veri transferi bilgisayarlar degil insanlar tarafindan otomatik islenmesi icin uygun veri yapilarini kullanilarak gerceklestirilir Boyle bir kavsak bicimleri ve protokolleri genellikle rijit kolayca cozumlenir iyi belgelenmis yapilandirilmis ve en az belirsizlik devam edilmektedir Cogu zaman bu yayinlar tum insan tarafindan okunabilir degil Boylece duzenli ayristirma gelen kazima verileri ayiran unsur kazinarak olan cikis yerine baska bir programa girdi olarak daha bir son kullaniciya ekranda yonelik oldugu ve bu nedenle genellikle belgelenmis ne uygun ayristirma yapilandirilmis ne oldugunu Veriler genellikle ikili veri genellikle goruntu veya multimedya veri goruntu bicimlendirme gereksiz etiketler gereksiz yorum veya ilgisiz ya da otomatik isleme engelleyen diger bilgileri gormezden icerir kazima Veri kazima en sik mevcut donanim ile uyumlu olan baska hicbir mekanizmaya sahip bir eski sistem ya arabirime yapilir ya da daha uygun bir API saglamaz bir ucuncu taraf sisteme arayuz Ikinci durumda ucuncu taraf sistemi operator genellikle ekran nedeniyle boyle yuksek sistem yuku reklam gelir kaybi veya bilgi iceriginin kontrol kaybi gibi nedenlerle istenmeyen kazima gorursunuz Veri kazima genellikle genellikle sadece veri degisimi icin baska bir mekanizma mevcut bir son care olarak kullanilan bir ad hoc inelegant teknigi kabul edilir Kenara yuksek programlama ve isleme yuku gelen insani tuketim amacli cikis goruntuler sik sik sik yapisini degistirmek Insanlar kolayca basa cikabilir ancak sacma bildirebilir bir bilgisayar programi belirli bir formatta veri okumak veya belirli bir yerden ve gecerliligi icin onun sonuclarini nasil denetlenecegi hicbir bilgi ile soylendi oylandi Ekran kazimaEkran kazima normalde yerine Web kazima gibi verileri ayristirma bir kaynaktan gelen gorsel verilerin programatik koleksiyonu ile iliskilidir Baslangicta ekran bilgisayar ekrani terminalin ekrandan metin veri okuma uygulamasina atifta kazima Bu islem genellikle yardimci baglanti noktasi uzerinden veya baska bir giris noktasina bir bilgisayar sisteminin terminal cikis baglanti noktasini terminalin okuma hafizasi ile yapilmistir Terimi ekran kazima de yaygin veri iki yonlu degisimi ifade etmek icin kullanilir Kontrol programi kullanici arayuzu gezinirken ya da kontrol programi anlamina bir arabirim veri giriyor daha karmasik senaryolar insan tarafindan kullanilmak uzere burada basit vakalar olabilir Bilgisayar veri isleme safak klasik bir ekran kaziyici somut bir ornek olarak 1960 larin varsayimsal eski sistem kalma dusunun O donemin kullanici arabirimleri Bilgisayar genellikle sanal tele yazicilar cok daha fazla degildi sadece metin tabanli aptal terminalleri idi bu sistemler cesitli nedenlerle hala kullanimda bugun Daha modern sistemlere boyle bir sistem arayuzu arzusu yaygindir Bir saglam bir cozum genellikle kaynak kodu sistem dokumantasyonu API ler ya da 50 yasindaki bir bilgisayar sistemi deneyimi olan programcilar olarak artik seyler gerektirecektir Bu gibi durumlarda tek cozumdur bir terminalde bir kullanici olmak mis gibi ekran kaziyici yazmak olabilir Ekran kaziyici istenen veri ayiklamak eski kullanici arayuzu gezinmek icin gerekli tus vuruslarini surec ortaya cikan goruntu cikis taklit Telnet uzerinden eski sisteme baglanmak ve modern bir sisteme gecmek olabilir Ornegin degisim kontrolu guvenlik kullanici yonetimi veri koruma operasyonel denetim yuk dengeleme ve kuyruk yonetimi vb yonetisim ve buyuk bir kurulus tarafindan gerekli kontrol saglayan bir platform uzerine insa edilen bu tip A sofistike ve esnek uygulama olabilir Robotik surec otomasyonu yaziliminin bir ornegi oldugu soylenebilir 1980 lerde Reuters Telerate ve Quotron finansal veri saglayicilari bir insan okuyucu yonelik 24 80 biciminde veri goruntulenir Bu veriler ozellikle yatirim bankalari kullanicilari yakalamak ve verileri tekrar anahtarlama olmadan ticaret kararlari icin hesaplamalar icine dahil edilmesi icin sayisal veri olarak bu karakter verileri donusturmek icin uygulama yazdi Sonuclar kagit parcalayici gectik hayal olabilir cunku ozellikle Ingiltere de bu uygulama icin ortak terim sayfa parcalama oldu Icten Reuters VAX VMS uzerinde gelismis bir bilgisayar sistemi calistiran bu donusum sureci icin logicized terimini kullanilan Logicize denilenr Daha modern ekran kazima teknikleri ekrandan bitmap verilerini yakalama ve bir OCR motoru ile calisan ya da bazi ozel otomatik test sistemleri icin beklenen sonuclara karsi ekranin bitmap verilerini eslesen icerir Bu programli altta yatan programlama nesnelerine basvurulari alarak grafik kontrolleri sorgulama ile GUI uygulamalari durumunda kombine edilebilir Web kazimaWeb kazimaWeb sayfalari metin tabanli mark up dilleri HTML ve XHTML kullanilarak insa ve sik sik metin biciminde yararli veri zenginligi icerirler Ancak cogu web sayfalari insan son kullanicilar icin degil otomatik kullanim kolayligi icin tasarlanmistir Bu nedenle web icerigi kazimak arac kitleri olusturulmustur Bir web kaziyici bir web sitesine veri ayiklamak icin bir API Amazon AWS ve Google gibi sirketler son kullanicilara ucretsiz olarak mevcut araclari hizmet ve kamu veri kazima web saglar Web kazima yeni formlari veri web sunucularindan beslemeleri dinleme icerir Ornegin JSON yaygin istemci ve web sunucusu arasinda bir tasima depolama mekanizmasi olarak kullanilir Son zamanlarda sirketler otomatik olarak yararli bilgiler elde etmek icin bir web sayfasini goruntulerken olusur insan isleme simulasyonu icin DOM ayristirma bilgisayar gorme ve dogal dil isleme teknikleri kullanarak guveniyor web kazima sistemleri gelistirdik Rapor madencilikRapor madencilik insan okunabilir bilgisayar raporlari veri cikarma oldugunu Geleneksel veri cekme bir calisma kaynagi sistemi uygun baglanti standartlari veya bir API ve genellikle karmasik sorgulama baglantisi gerektirir Kaynak sisteminin standart raporlama secenekleri kullanarak bir biriktirme dosyasi yerine bir yaziciya cikti yonlendirerek statik raporlar rapor madencilik yoluyla cevrimdisi analiz icin uygun olusturulabilir Bu yaklasim is saatlerinde yogun CPU kullanimini onlemek ERP musterileri icin son kullanici lisans maliyetlerini en aza indirebilirsiniz ve cok hizli prototip ve ozel raporlarin gelistirilmesi sunabilir Veri kazima ve web dinamik cikisi ile etkilesim iceren kazima Oysa rapor madencilik gibi HTML PDF veya metin olarak bir insan okunabilir formatta dosyalardan veri ayiklanmasi icerir Bunlar kolayca bir yaziciya veri besleme durdurarak hemen her sistemden elde edilebilir Bu yaklasim kaynak sistemine bir API programlamak gerek kalmadan veriyi elde etmek hizli ve basit bir yol saglayabilir Ayrica bakinizData munging Information extraction Importer computing Acik veri Web kazima Mashup web application hybrid Metadata Comparison of feed aggregatorsKaynakca Bot Gurus 14 Agustos 2014 tarihinde kaynagindan arsivlendi Erisim tarihi 9 Ocak 2016 Contributors Fret About Reuters Plan To Switch From Monitor Network To IDN 13 Mart 2016 tarihinde Wayback Machine sitesinde FX Week 02 Nov 1990 Diffbot aims to make it easier for apps to read Web pages the way humans do MIT Technology Review 1 Subat 2015 tarihinde kaynagindan Erisim tarihi 1 Aralik 2014 This Simple Data Scraping Tool Could Change How Apps Are Made WIRED 13 Ocak 2016 tarihinde kaynagindan Erisim tarihi 8 Mayis 2015 Konuyla ilgili yayinlarHemenway Kevin and Calishain Tara Spidering Hacks Cambridge Massachusetts O Reilly 2003 ISBN 0 596 00577 6