Web kazıma (web hasat veya web veri çekimi), web sitelerinden bilgi çıkartmanın bilgisayar programı tekniğidir. Çoğunlukla, bu tür yazılım programları düşük seviye Köprü Metni Aktarım Protokolü (HTTP) veya Mozilla Firefox gibi tam teşekküllü gömülü web tarayıcısı tarafından World Wide Web'in insan araştırmaları simüle edilir.
Web kazıma, web indeksleme ile yakından ilgilidir, web'de hangi bilgi indekslenmişse bir bot ya da web gezgini kullanılmıştır ve bu çoğu arama motoru tarafından benimsenen evrensel bir tekniktir. Buna karşılık, web kazıma genellikle web'de HTML biçimindeki yapılandırılmamış verilerin dönüşümüne odaklanır, yapılandırılmış veriler merkezi yerel veritabanında ya da tablolarda analiz edilip saklanabilir. Web kazıma aynı zamanda web otomasyonuyla ilgilidir, insan taramasının simüle edilmesi bilgisayar programı kullanılarak yapılır. Web kazımanın kullanımı, online fiyat karşılaştırması, iletişim bilgileri kazımı, hava durumu takibi, website değişikliklerinin bulunması, web mashup ve web bilgi entegrasyonunu içerir.
Web kazıma yakından çoğu arama motorları tarafından benimsenen evrensel bir tekniktir bot veya web tarayıcımızın kullanarak web'de dizine bilgileri ve web indeksleme ile ilgilidir. Buna karşılık, web kazıma merkezi yerel veritabanı veya elektronik saklanır ve analiz edilebilir yapılandırılmış veri içine, genellikle HTML biçiminde, web üzerinde yapılandırılmamış verilerin dönüşümü daha fazla odaklanıyor. Web kazıma ayrıca bilgisayar yazılımı kullanılarak insan tarama taklit web otomasyon ile ilgilidir. Web kazıma Kullanımı Online fiyat karşılaştırma, iletişim kazıma, hava durumu verileri izleme, web sitesi değişikliği algılama, araştırma, web mashup ve web veri entegrasyonu yer alıyor.
Teknikler
Web kazıma otomatik World Wide Web'den bilgi toplama işlemidir. Bu semantik web vizyonu, hala metin işleme, anlamsal anlayış, yapay zeka ve insan-bilgisayar etkileşiminde devrimler gerektiren iddialı bir girişim ile ortak hedefe paylaşan aktif gelişmelerin bir alandır. Mevcut web kazıma çözümleri tamamen sınırlamalar, yapılandırılmış bilgi içine tüm web sitelerini dönüştürmek mümkün otomatik sistemlere kadar, insan çaba gerektiren, reklam hoc arasında değişir.
- İnsan kopyalama ve yapıştırma: Bazen en iyi web kazıma teknolojisi insanın manuel muayene ve kopyalama ve yapıştırma yerini alamaz ve bazen bu tek uygulanabilir çözüm olabilir zaman açıkça makine otomasyonu önlemek için engelleri kurmak kazıma için web siteleri.
- Metin grepping ve düzenli ifade eşleşmesi: web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım UNIX grep komutuyla ya da (örneğin Perl veya Python için)Programlama dillerinin düzenli ifade eşleştirme tesislerine dayalı olabilir.
- HTTP programlama : Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir .
- HTML ayrıştırıcıları : Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları var. Aynı kategorideki verileri genellikle ortak bir komut dosyası veya şablon benzer sayfalarına kodlanmıştır. Bir sargı denir veri madenciliği, belli bir bilgi kaynağı gibi şablonlar algılayan bir program, içeriği ayıklar ve ilişkisel forma çevirir. Sarıcı nesil algoritmaları bir sarmalayıcı indüksiyon sistemi giriş sayfaları ortak şablona uygun ve kolayca bir URL ortak düzeni açısından tespit edilebilir varsayalım. Ayrıca, bu tür XQuery ve HTQL gibi bazı yarı yapılandırılmış veri sorgulama dilleri, HTML sayfaları ayrıştırmak ve almak ve sayfa içeriği dönüştürmek için kullanılabilir.
- DOM ayrıştırma : Internet Explorer veya Mozilla tarayıcısı kontrolü gibi tam teşekküllü bir web tarayıcı, gömme, programlar istemci tarafı komut tarafından oluşturulan dinamik içeriği alabilirsiniz. Bu tarayıcı kontrolleri de programların sayfalarının parçalarını almak hangi dayalı bir DOM ağacına web sayfalarını ayrıştırmak.
- Web kazıma yazılım: Web kazıma çözümleri özelleştirmek için kullanılabilecek birçok yazılım araçları vardır. Bu yazılım otomatik olarak sayfanın veri yapısını tanımak veya saklayabilirsiniz elle web kazıma kod yazmak için gerekliliğini ya da özü ve içeriği dönüştürmek için kullanılabilecek bazı betik fonksiyonları ve veri tabanı arayüzleri kaldıran bir kayıt arabirimi sağlamak için deneyebilir yerel veritabanlarında kazınarak verileri.
- Dikey kümelenme platformları: Dikey belirli hasat platformları geliştirdik birkaç şirket var. Bu platformlar oluşturmak ve hayır " döngüde adam" (doğrudan insan müdahalesi) ve belirli bir hedef sitesi ile ilgili herhangi bir çalışma ile belirli dikey için " bot" çok sayıda monitör. Hazırlık tüm dikey ve ardından platformu botlar otomatik olarak oluşturur için bilgi tabanını oluşturulması içerir. Platformun sağlamlığı (o yüzlerce ya da binlerce site kadar ölçeklendirilebilir nasıl hızlı) o alır bilgilerin (alanların genellikle sayı) ve ölçeklenebilirlik kalitesi ile ölçülür. Bu ölçeklenebilirlik çoğunlukla ortak toplayan karmaşık veya çok emek-yoğun hasat içeriğine bulmak sitelerin Long Tail hedeflemek için kullanılır.
- Semantik açıklama tanıyarak : özgü veri parçacıkları bulmak için kullanılabilecek meta veya anlamsal işaretlerini ve açıklamaları kucaklamak olabilir kazınarak olan sayfalar. Açıklamalar sayfalarında gömülü ise Microformat yaptığı gibi, bu teknik DOM ayrıştırma özel bir durum olarak görülebilir. Başka bir durumda, bir semantik katmana halinde organize ek açıklamalar, saklanır ve web sayfalarından ayrı olarak yönetilen, yani sıyırıcılar sayfalarını kazıma önce bu katmanda veri şema ve talimatları alabilirsiniz .
- Bilgisayar vizyon web sayfası analiz: tanımlamak ve bir insan olarak görsel sayfaları yorumlayarak web sayfalarından bilgileri ayıklamak girişimi makine öğrenme ve bilgisayar vizyonu ile çalışmalar vardır olabilir.
Yasal sorunlar
Web kazıma bazı web sitelerinin kullanım koşullarını aykırı olabilir. Bu terimlerin uygulanabilirliği belirsizdir. Orijinal ifadenin düpedüz çoğaltılması birçok durumda yasadışı olacak olsa, Amerika Birleşik Devletleri mahkemeleri gerçeklerin çoğaltılması izin olduğunu Feist Yayınları v. Kırsal Telefon Hizmeti karar verdi. ABD mahkemeleri "kazıyıcı" veya "robotlar" nin kullanıcıların kazıyıcı kullanıcı geçmeleri ise bunun üzerine kendisinin kişisel mülkiyet kabul ediliyor, bir bilgisayar sistemi gerektirir taşınır için haneye tecavüz, işlemekten sorumlu olabileceğini kabul etmektedir. En iyi bu gibi durumlarda bilinen, eBay v. Teklif Sahibinin Kenar, toplama, erişen durdurmak için bir tedbir sipariş Teklif Sahibinin Edge sonuçlandı ve eBay web sitesinden indeksleme ihaleleri. Bu durum ihale sniping olarak bilinen tekliflerin otomatik yerleştirerek, içeriyordu. Ancak, taşınır için haneye tecavüz iddiası üzerine başarılı olmak için, davacı davalı kasten ve izinsiz bilgisayar sisteminde davacının sahiplik ilgi ile ve sanığın izinsiz kullanımı davacıya zarar olduğunu müdahale olduğunu göstermek zorundadır. Mahkemeler taşınır için suç olarak kabul edilmiştir önce değil, web spidering tüm olgular getirdi.
Ekranın ilk önemli testlerden biri American Airlines (AA) dahil ve FareChase adında bir firma kazıma. AA başarıyla da AA'nın web sitesini arar eğer çevrimiçi tarifeleri karşılaştırmak olanak tanır yazılım satan farechase durdurma, Texas mahkemesinin bir emir aldı. Havayolu kamuya açık verileri toplamış zaman farechase en websearch yazılım AA'nın sunucularında tecavüz savundu. FareChase Haziran farechase tarafından 2003 yılı Mart ayında bir temyiz başvurusunda ve AA yerleşmeye karar verdiler ve temyiz düştü.
Southwest Airlines ayrıca ekran kazıma uygulamaları meydan ve farechase ve yasal iddia başka bir firma, Outtask, hem de yer vardır. Southwest Airlines o "Bilgisayar Dolandırıcılığı ve Kötüye" bir örneğidir ve "Hasar ve Zarar" ve Southwest'in sitenin "Yetkisiz Erişim" yol açmıştır çünkü ekran kazıma Yasadışı olduğunu suçladı. Aynı zamanda "İş İlişkileri Girişim", "İzinsiz" ve "Bilgisayar sağlığa zararlıdır Erişim" oluşturmaktadır. Onlar da ekran kazıma yasal "zimmete para geçirme ve Sebepsiz zenginleşme", yanı sıra web sitesinin kullanıcı sözleşmesi ihlal olarak bilinen teşkil ettiğini iddia etti. Outtask Bu durumda hakim kanun ABD Telif hakkı yasası ve telif hakkı altında, bilgi parçaları telif hakkı korumasına tabi olmayacaktır kazınarak varlık olduğunu olması gerektiğini iddia ederek, tüm bu iddiaları yalanladı. Davalar, Amerika Birleşik Devletleri Yüksek Mahkemesi giderilmiş asla rağmen, FareChase sonunda ana şirket Yahoo tarafından kepenkli edildi ! ve Outtask seyahat gideri şirketi hemfikir tarafından satın alındı. 2012 yılında, 3Taps adında bir başlangıç Craigslist adlı gizli konut reklamları kazınmış. Craigslist 3Taps-kes ve-vazgeçmek mektup göndermiş ve onların IP adreslerini bloke daha sonra Craigslist v. 3Taps olarak, dava açtı. Mahkeme Craigslist düzgün 3Taps olduğunu Bilgisayar Dolandırıcılık ihlal ve Kötüye Kullanma Yasası vardı iddia etmek için ateşkes ve-vazgeçmek mektup ve IP engelleme yeterli olduğuna karar vermiştir.
Bu erken kazıma kararlar ve sorumluluk teorileri üniforma olmasa da, bu mahkemelerin bu tür sitelerin sahiplerine istenmeyen kullanımlar ticari sitelerde özel içeriği korumak için hazır olduklarını ortaya bir model göz ardı etmek zordur. Ancak, bu tür içerik için koruma derecesi yerleşmiş değildir ve raspa tarafından yapılan erişim türüne bağlıdır, bilgi miktarı erişilebilir ve kopyalanamaz, derecesi erişimi olumsuz sitesi sahibinin sistemi ve türleri ve etkileri böyle davranış üzerindeki yasaklar şekilde.
Bu alanda yasa daha yerleşmiş olur iken, kişiler hakkında da bu tür eylem kullanımı ve diğer şartlar veya bildirimler yayınlanan veya site aracılığıyla sunulan koşullarını gözden tarafından yetkilendirilmiş olup olmadığını düşünmelisiniz kamu web sitesine erişmek için kazıma programları kullanılarak düşünürken. Cvent, Inc v bir 2010 kararında. Eventbrite, Inc Virginia doğu bölgesi için Amerika Birleşik Devletleri bölge mahkemesi, mahkeme kullanım koşulları bir browse için için kullanıcıların dikkatine getirdi gerektiğine hükmetti şal sözleşmesi veya lisans uygulanmak üzere. Pennsylvania Doğu Bölgesi ABD Bölge Mahkemesi açılan bir 2014, yılında, e-ticaret sitesi QVC gerçek zamanlı fiyatlandırma verilerine QVC sitesinin Pinterest benzeri bir alışveriş toplayıcı Resultly en kazıma itiraz. QVC Resultly QVC perakende sitesi QVC için kayıp satış sonuçlanır iki gün çökmesine QVC sitesini neden (sözde Dakikada 36.000 isteklerine bazen dakikada QVC web sitesine 200-300 arama istekleri göndererek) "aşırı sürünerek" diye allges. QVC yaptığı şikayet davalı kaynak IP adresini maskelemek için web tarayıcısını gizlenmiş ve böylece hızlı bir şekilde sorunu tamir dan QVC engelledi iddia etmektedir. QVC QVC iddiaları Resultly neden oldu kendi web sitesi, kullanılamaması için tazminat istiyor çünkü bu özellikle ilginç kazıma durumdur.
Kullanım link şartları internet üzerindeki en siteleri gibi sayfanın altındaki sitenin tüm bağlantıları, içinde görüntülenen bu davanın döneminde davacının web sitesinde. Bu iktidar aşağıda açıklanan İrlandalı kararı çelişmektedir. Mahkeme ayrıca göz şal kısıtlamaları Düzgün Bilgisayar Enformasyon İşlemleri Yasası (UCITA )birçok ortak göz şal müteahhitlik uygulamaları konusunda lehine olduğuna inanıyordu -a üniforma hukuku Virginia'nın kabul görünümünde uygulanabilir olduğu davacının iddiasını reddetmiştir.
Amerika Birleşik Devletleri dışında, 2006 yılı Şubat ayında, Danimarka Denizcilik ve Ticaret Mahkemesi (Kopenhag )Home.dk Danimarkalı yasa veya çakışmaması emlak sitesi portal sitesi OfiR.dk sistematik taranmasına, indeksleme ve derin bağlama hükmetti Avrupa Birliği direktifi veritabanı.
2009 yılında Facebook bilinen bir web kazıyıcı karşı ilk telif takım elbise birini kazandı. Bu mahkemelerin internette olduğu gibi adil kullanım adlandırılan elimden doğrudan telif hakkı ihlali ve çok net parasal zararlar En son durumda olmak AP v erime suyundan oluşan, birlikte kazıma herhangi bir web kravat sayısız davalar için zemin hazırlamıştır.
Şubat yargı konularında karmaşık 2.010 dava, İrlanda'nın Yüksek Mahkemesi içtihatlarını geliştirme inchoate durumunu gösteren bir karar verdi. Ryanair Ltd v Billigfluege.de GmbH şirketinin durumunda, İrlanda'nın Yüksek Mahkemesi yasal olarak bağlayıcı olmasını Ryanair " click- wrap " anlaşması hükmetti. ABD Bölge Mahkemesi Doğu Virginia Bölge ve Danimarka Denizcilik ve Ticaret Mahkemesi bu bulgular aksine, Sayın Adalet Michael Hanna Ryanair'ın hüküm ve koşullara köprü açıkça görünür oldu ve o hükmetti üzerinde yükümlülüklerini de ortadan yerleştirerek kullanıcı bir sözleşme ilişkisi içermesi yeterlidir çevrimiçi hizmetlere erişmek amacıyla şartları ve koşulları kabul etmek. Karar İrlanda'nın Yargıtay'da temyiz aşamasındadır .I
Avustralya, Spam Yasası 2003 haydutlar web hasat bazı formları, bu sadece e-posta adreslerine de geçerlidir rağmen
Kayda değer araçları
Teknik önlemler botlara durdurmak için
Bir web sitesinin yöneticisi durdurmak veya bot yavaş çeşitli önlemler kullanabilirsiniz. Bazı teknikler şunlardır:
- Bir IP adresi ya elle ya da Geolocation ve DNSRBL gibi kriterlere göre engelleme. Bu aynı zamanda bu adrese gelen tüm tarama engeller. Web sitesinin sistem altında bırakabilecek herhangi bir web servis API devre dışı bırakılması. Botlar bazen (kullanıcı aracısı dizeleri kullanarak) ve (robots.txt kullanarak) bu temelde bloke edilebilir kim beyan; 'Googlebot' bir örnektir. Diğer botlar kendileri ve bir tarayıcı kullanarak bir insanın arasında hiçbir ayrım yapmak. Botlar aşırı trafik izleme tarafından bloke edilebilir. Botlar bazen bir kaptan gibi site erişen gerçek bir kişi olduğunu doğrulamak için araçları ile bloke edilebilir. Botlar bazen açıkça belli CAPTCHA kalıplarını kırmak için kodlanmış veya okumak ve CAPTCHA zorlukları gerçek zamanlı olarak cevap insan emeğini kullanan üçüncü taraf hizmetleri istihdam edebilir. Ticari anti-bot hizmetleri: Firmalar, anti-bot ve web siteleri için hizmet anti-kazıma sunuyoruz. Birkaç web uygulama güvenlik duvarları yanı sıra bot algılama yetenekleri sınırlıdır. Bir bal küpü veya başka bir yöntemle botlar yerlerinin otomatik tarayıcılarının IP adreslerini tespit etmek. Gizleme okuyucu kullanıcıları ekrana erişilebilirlik pahasına, telefon numaraları veya e-posta adresleri gibi verileri görüntülemek için CSS sprite kullanarak. Botlar bir bot ilk kurulumunda daha insani katılımını gerektirir önemli verileri ve navigasyon elemanları çevreleyen HTML / CSS küçük varyasyonları ekleme ve etkin bir hale getirebilir yapılırsa, hedef web sitesinin ön uç kod tutarlılık dayandıklarından nedeniyle kazıma işlemini otomatikleştirmek için azalmış yeteneği kazımak için çok zor bir web sitesi hedef.
Makaleler
Web Kazıma : Bilmeniz Wanted (ama sormak korktular) Her şey
Teknikler
Web kazıma otomatik olarak World Wide Web üzerinden bilgi toplama işlemidir. Mevcut web kazıma çözümleri, ad-hoc, insan çabası gerektiren, tüm websitelerini yapılandırılmış verilere dönüştüren tam otomatik sistemler ve bazı sınırlamalar arasındadır.
- İnsan kopyalaması ve yapıştırması: Bazen en iyi web kazıma teknolojisi bile insanın manuel incelemesini ve kopyalama ve yapıştırmalarının yerini alamaz ve web kazımaya karşı bir engel varsa bazen bu tek uygulanabilir çözüm olabilir.
- Metin araması ve düzenli ifade eşleşmesi: Web sayfalarından bilgileri ayıklamak için basit ama güçlü bir yaklaşım olan UNIX'in grep komutuyla ya da programlama dillerinin (örneğin Perl veya Python) düzenli ifade eşleştirme tesislerine dayalı olabilir.
- HTTP programlama: Statik ve dinamik web sayfaları soket programlama kullanarak uzak web sunucusuna HTTP isteklerini göndererek alınabilir.
- HTML ayrıştırıcıları: Birçok web sitesi bir veritabanı gibi altta yatan yapısal bir kaynaktan dinamik olarak oluşturulan sayfaların büyük koleksiyonları olabilir. Aynı kategorideki veriler genellikle ortak bir komut dosyası veya şablona benzer sayfalar olarak kodlanmıştır. Veri madenciliğinde, bir program belirli bir bilgi kaynağındaki bu tür şablonları bulur, içeriği ayıklar ve sarıcı denilen ilişkisel forma çevrilir. Ayrıca, XQuery gibi bazı yarı yapılandırılmış veri sorgulama dilleri ile HTML ayrıştırılabilir ve sayfa içeriği dönüştürülmek için kullanılabilir.
- DOM ayrıştırma: Programlar, Internet Explorer veya Mozilla gibi tam teşekküllü gömülü web tarayıcılarıyla istemci scriptleri tarafından oluşturulan dinamik içerikleri alabilir. Bu browser kontrolleri DOM ağacından sayfaları ayırabilir, herhangi bir program sayfalardan bu parçaları alabilir.
- Web kazıma yazılımları: Bazı yazılım araçları özelleştirilebilir web kazıma çözümleri sunar. Bu yazılımlar sayfanın yapısını otomatik olarak tanıyabilir, elle web kazıma kodları yazma zorunluluğunu ortadan kaldıran arayüzler, içeriği çıkartmak ve dönüştürmek için bazı script fonksiyonları ve kazılmış içeriği yerel veritabanına kaydetmek için veritabanı arayüzleri sağlayabilir.
- Dikey toplama platformları: Bazı şirketler web kazıma platformları geliştirmiştir. Bu platformlar, insan müdahalesi olmayan bazı dikeyler için çok sayıda "bot" üretir ve gözler. Hiçbir çalışma belirli siteler için yapılmaz. Hazırlık, tüm dikeyler için bilgi tabanının kurulması ve sonra platformun botları otomatik olarak oluşturulmasını içerir.
- Bilgisayar görüşlü web sayfası analistleri: Bunlar makine öğrenimi ve bilgisayar görüşü kullanarak insan gibi yorumlanmış sayfa görsellerinden web sayfasındaki bilgileri görüntüler ve tanımlar.
Tanınmış araçlar
Ayrıca bakınız
Kaynakça
- ^ a b Roush, Wade (25 Temmuz 2012). "Diffbot Is Using Computer Vision to Reinvent the Semantic Web". www.xconomy.com. 27 Nisan 2013 tarihinde kaynağından . Erişim tarihi: 15 Mart 2013.
- ^ "Ticketmaster Corp. v. Tickets.com, Inc." 20 Ağustos 2007. 28 Eylül 2007 tarihinde kaynağından . Erişim tarihi: 20 Ağustos 2007.
- ^ . The Free Library. 13 Haziran 2003. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 26 Şubat 2012.
- ^ Adler, Kenneth A. (29 Temmuz 2003). . 11 Şubat 2011 tarihinde kaynağından arşivlendi. Erişim tarihi: 27 Ekim 2010.
- ^ (PDF). 17 Eylül 2010. 23 Temmuz 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 27 Ekim 2010.
- ^ (PDF). bvhd.dk. 24 Şubat 2006. 12 Ekim 2007 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 30 Mayıs 2007.
- ^ "Is web scraping illegal depends on what the meaning of the word is is". 10 Ocak 2016 tarihinde kaynağından . Erişim tarihi: 9 Ocak 2016.
- ^ Matthews, Áine (Haziran 2010). . Issue 26: June 2010. LK Shields Solicitors Update. s. 03. 24 Haziran 2012 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Nisan 2012.
- ^ National Office for the Information Economy (Şubat 2004). (PDF). Australian Communications Authority. s. 6. 21 Mayıs 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009.
- ^ National Office for the Information Economy (Şubat 2004). (PDF). Australian Communications Authority. s. 20. 7 Nisan 2009 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 9 Mart 2009.
- ^ "Web Scraping: Everything You Wanted to Know (but were afraid to ask)". Distil Networks. 22 Temmuz 2015. 7 Kasım 2015 tarihinde kaynağından . Erişim tarihi: 4 Kasım 2015.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Web kazima web hasat veya web veri cekimi web sitelerinden bilgi cikartmanin bilgisayar programi teknigidir Cogunlukla bu tur yazilim programlari dusuk seviye Kopru Metni Aktarim Protokolu HTTP veya Mozilla Firefox gibi tam tesekkullu gomulu web tarayicisi tarafindan World Wide Web in insan arastirmalari simule edilir Web kazima sureci Web kazima web indeksleme ile yakindan ilgilidir web de hangi bilgi indekslenmisse bir bot ya da web gezgini kullanilmistir ve bu cogu arama motoru tarafindan benimsenen evrensel bir tekniktir Buna karsilik web kazima genellikle web de HTML bicimindeki yapilandirilmamis verilerin donusumune odaklanir yapilandirilmis veriler merkezi yerel veritabaninda ya da tablolarda analiz edilip saklanabilir Web kazima ayni zamanda web otomasyonuyla ilgilidir insan taramasinin simule edilmesi bilgisayar programi kullanilarak yapilir Web kazimanin kullanimi online fiyat karsilastirmasi iletisim bilgileri kazimi hava durumu takibi website degisikliklerinin bulunmasi web mashup ve web bilgi entegrasyonunu icerir Web kazima yakindan cogu arama motorlari tarafindan benimsenen evrensel bir tekniktir bot veya web tarayicimizin kullanarak web de dizine bilgileri ve web indeksleme ile ilgilidir Buna karsilik web kazima merkezi yerel veritabani veya elektronik saklanir ve analiz edilebilir yapilandirilmis veri icine genellikle HTML biciminde web uzerinde yapilandirilmamis verilerin donusumu daha fazla odaklaniyor Web kazima ayrica bilgisayar yazilimi kullanilarak insan tarama taklit web otomasyon ile ilgilidir Web kazima Kullanimi Online fiyat karsilastirma iletisim kazima hava durumu verileri izleme web sitesi degisikligi algilama arastirma web mashup ve web veri entegrasyonu yer aliyor Teknikler Web kazima otomatik World Wide Web den bilgi toplama islemidir Bu semantik web vizyonu hala metin isleme anlamsal anlayis yapay zeka ve insan bilgisayar etkilesiminde devrimler gerektiren iddiali bir girisim ile ortak hedefe paylasan aktif gelismelerin bir alandir Mevcut web kazima cozumleri tamamen sinirlamalar yapilandirilmis bilgi icine tum web sitelerini donusturmek mumkun otomatik sistemlere kadar insan caba gerektiren reklam hoc arasinda degisir Insan kopyalama ve yapistirma Bazen en iyi web kazima teknolojisi insanin manuel muayene ve kopyalama ve yapistirma yerini alamaz ve bazen bu tek uygulanabilir cozum olabilir zaman acikca makine otomasyonu onlemek icin engelleri kurmak kazima icin web siteleri Metin grepping ve duzenli ifade eslesmesi web sayfalarindan bilgileri ayiklamak icin basit ama guclu bir yaklasim UNIX grep komutuyla ya da ornegin Perl veya Python icin Programlama dillerinin duzenli ifade eslestirme tesislerine dayali olabilir HTTP programlama Statik ve dinamik web sayfalari soket programlama kullanarak uzak web sunucusuna HTTP isteklerini gondererek alinabilir HTML ayristiricilari Bircok web sitesi bir veritabani gibi altta yatan yapisal bir kaynaktan dinamik olarak olusturulan sayfalarin buyuk koleksiyonlari var Ayni kategorideki verileri genellikle ortak bir komut dosyasi veya sablon benzer sayfalarina kodlanmistir Bir sargi denir veri madenciligi belli bir bilgi kaynagi gibi sablonlar algilayan bir program icerigi ayiklar ve iliskisel forma cevirir Sarici nesil algoritmalari bir sarmalayici induksiyon sistemi giris sayfalari ortak sablona uygun ve kolayca bir URL ortak duzeni acisindan tespit edilebilir varsayalim Ayrica bu tur XQuery ve HTQL gibi bazi yari yapilandirilmis veri sorgulama dilleri HTML sayfalari ayristirmak ve almak ve sayfa icerigi donusturmek icin kullanilabilir DOM ayristirma Internet Explorer veya Mozilla tarayicisi kontrolu gibi tam tesekkullu bir web tarayici gomme programlar istemci tarafi komut tarafindan olusturulan dinamik icerigi alabilirsiniz Bu tarayici kontrolleri de programlarin sayfalarinin parcalarini almak hangi dayali bir DOM agacina web sayfalarini ayristirmak Web kazima yazilim Web kazima cozumleri ozellestirmek icin kullanilabilecek bircok yazilim araclari vardir Bu yazilim otomatik olarak sayfanin veri yapisini tanimak veya saklayabilirsiniz elle web kazima kod yazmak icin gerekliligini ya da ozu ve icerigi donusturmek icin kullanilabilecek bazi betik fonksiyonlari ve veri tabani arayuzleri kaldiran bir kayit arabirimi saglamak icin deneyebilir yerel veritabanlarinda kazinarak verileri Dikey kumelenme platformlari Dikey belirli hasat platformlari gelistirdik birkac sirket var Bu platformlar olusturmak ve hayir dongude adam dogrudan insan mudahalesi ve belirli bir hedef sitesi ile ilgili herhangi bir calisma ile belirli dikey icin bot cok sayida monitor Hazirlik tum dikey ve ardindan platformu botlar otomatik olarak olusturur icin bilgi tabanini olusturulmasi icerir Platformun saglamligi o yuzlerce ya da binlerce site kadar olceklendirilebilir nasil hizli o alir bilgilerin alanlarin genellikle sayi ve olceklenebilirlik kalitesi ile olculur Bu olceklenebilirlik cogunlukla ortak toplayan karmasik veya cok emek yogun hasat icerigine bulmak sitelerin Long Tail hedeflemek icin kullanilir Semantik aciklama taniyarak ozgu veri parcaciklari bulmak icin kullanilabilecek meta veya anlamsal isaretlerini ve aciklamalari kucaklamak olabilir kazinarak olan sayfalar Aciklamalar sayfalarinda gomulu ise Microformat yaptigi gibi bu teknik DOM ayristirma ozel bir durum olarak gorulebilir Baska bir durumda bir semantik katmana halinde organize ek aciklamalar saklanir ve web sayfalarindan ayri olarak yonetilen yani siyiricilar sayfalarini kazima once bu katmanda veri sema ve talimatlari alabilirsiniz Bilgisayar vizyon web sayfasi analiz tanimlamak ve bir insan olarak gorsel sayfalari yorumlayarak web sayfalarindan bilgileri ayiklamak girisimi makine ogrenme ve bilgisayar vizyonu ile calismalar vardir olabilir Yasal sorunlar Web kazima bazi web sitelerinin kullanim kosullarini aykiri olabilir Bu terimlerin uygulanabilirligi belirsizdir Orijinal ifadenin dupeduz cogaltilmasi bircok durumda yasadisi olacak olsa Amerika Birlesik Devletleri mahkemeleri gerceklerin cogaltilmasi izin oldugunu Feist Yayinlari v Kirsal Telefon Hizmeti karar verdi ABD mahkemeleri kaziyici veya robotlar nin kullanicilarin kaziyici kullanici gecmeleri ise bunun uzerine kendisinin kisisel mulkiyet kabul ediliyor bir bilgisayar sistemi gerektirir tasinir icin haneye tecavuz islemekten sorumlu olabilecegini kabul etmektedir En iyi bu gibi durumlarda bilinen eBay v Teklif Sahibinin Kenar toplama erisen durdurmak icin bir tedbir siparis Teklif Sahibinin Edge sonuclandi ve eBay web sitesinden indeksleme ihaleleri Bu durum ihale sniping olarak bilinen tekliflerin otomatik yerlestirerek iceriyordu Ancak tasinir icin haneye tecavuz iddiasi uzerine basarili olmak icin davaci davali kasten ve izinsiz bilgisayar sisteminde davacinin sahiplik ilgi ile ve sanigin izinsiz kullanimi davaciya zarar oldugunu mudahale oldugunu gostermek zorundadir Mahkemeler tasinir icin suc olarak kabul edilmistir once degil web spidering tum olgular getirdi Ekranin ilk onemli testlerden biri American Airlines AA dahil ve FareChase adinda bir firma kazima AA basariyla da AA nin web sitesini arar eger cevrimici tarifeleri karsilastirmak olanak tanir yazilim satan farechase durdurma Texas mahkemesinin bir emir aldi Havayolu kamuya acik verileri toplamis zaman farechase en websearch yazilim AA nin sunucularinda tecavuz savundu FareChase Haziran farechase tarafindan 2003 yili Mart ayinda bir temyiz basvurusunda ve AA yerlesmeye karar verdiler ve temyiz dustu Southwest Airlines ayrica ekran kazima uygulamalari meydan ve farechase ve yasal iddia baska bir firma Outtask hem de yer vardir Southwest Airlines o Bilgisayar Dolandiriciligi ve Kotuye bir ornegidir ve Hasar ve Zarar ve Southwest in sitenin Yetkisiz Erisim yol acmistir cunku ekran kazima Yasadisi oldugunu sucladi Ayni zamanda Is Iliskileri Girisim Izinsiz ve Bilgisayar sagliga zararlidir Erisim olusturmaktadir Onlar da ekran kazima yasal zimmete para gecirme ve Sebepsiz zenginlesme yani sira web sitesinin kullanici sozlesmesi ihlal olarak bilinen teskil ettigini iddia etti Outtask Bu durumda hakim kanun ABD Telif hakki yasasi ve telif hakki altinda bilgi parcalari telif hakki korumasina tabi olmayacaktir kazinarak varlik oldugunu olmasi gerektigini iddia ederek tum bu iddialari yalanladi Davalar Amerika Birlesik Devletleri Yuksek Mahkemesi giderilmis asla ragmen FareChase sonunda ana sirket Yahoo tarafindan kepenkli edildi ve Outtask seyahat gideri sirketi hemfikir tarafindan satin alindi 2012 yilinda 3Taps adinda bir baslangic Craigslist adli gizli konut reklamlari kazinmis Craigslist 3Taps kes ve vazgecmek mektup gondermis ve onlarin IP adreslerini bloke daha sonra Craigslist v 3Taps olarak dava acti Mahkeme Craigslist duzgun 3Taps oldugunu Bilgisayar Dolandiricilik ihlal ve Kotuye Kullanma Yasasi vardi iddia etmek icin ateskes ve vazgecmek mektup ve IP engelleme yeterli olduguna karar vermistir Bu erken kazima kararlar ve sorumluluk teorileri uniforma olmasa da bu mahkemelerin bu tur sitelerin sahiplerine istenmeyen kullanimlar ticari sitelerde ozel icerigi korumak icin hazir olduklarini ortaya bir model goz ardi etmek zordur Ancak bu tur icerik icin koruma derecesi yerlesmis degildir ve raspa tarafindan yapilan erisim turune baglidir bilgi miktari erisilebilir ve kopyalanamaz derecesi erisimi olumsuz sitesi sahibinin sistemi ve turleri ve etkileri boyle davranis uzerindeki yasaklar sekilde Bu alanda yasa daha yerlesmis olur iken kisiler hakkinda da bu tur eylem kullanimi ve diger sartlar veya bildirimler yayinlanan veya site araciligiyla sunulan kosullarini gozden tarafindan yetkilendirilmis olup olmadigini dusunmelisiniz kamu web sitesine erismek icin kazima programlari kullanilarak dusunurken Cvent Inc v bir 2010 kararinda Eventbrite Inc Virginia dogu bolgesi icin Amerika Birlesik Devletleri bolge mahkemesi mahkeme kullanim kosullari bir browse icin icin kullanicilarin dikkatine getirdi gerektigine hukmetti sal sozlesmesi veya lisans uygulanmak uzere Pennsylvania Dogu Bolgesi ABD Bolge Mahkemesi acilan bir 2014 yilinda e ticaret sitesi QVC gercek zamanli fiyatlandirma verilerine QVC sitesinin Pinterest benzeri bir alisveris toplayici Resultly en kazima itiraz QVC Resultly QVC perakende sitesi QVC icin kayip satis sonuclanir iki gun cokmesine QVC sitesini neden sozde Dakikada 36 000 isteklerine bazen dakikada QVC web sitesine 200 300 arama istekleri gondererek asiri surunerek diye allges QVC yaptigi sikayet davali kaynak IP adresini maskelemek icin web tarayicisini gizlenmis ve boylece hizli bir sekilde sorunu tamir dan QVC engelledi iddia etmektedir QVC QVC iddialari Resultly neden oldu kendi web sitesi kullanilamamasi icin tazminat istiyor cunku bu ozellikle ilginc kazima durumdur Kullanim link sartlari internet uzerindeki en siteleri gibi sayfanin altindaki sitenin tum baglantilari icinde goruntulenen bu davanin doneminde davacinin web sitesinde Bu iktidar asagida aciklanan Irlandali karari celismektedir Mahkeme ayrica goz sal kisitlamalari Duzgun Bilgisayar Enformasyon Islemleri Yasasi UCITA bircok ortak goz sal muteahhitlik uygulamalari konusunda lehine olduguna inaniyordu a uniforma hukuku Virginia nin kabul gorunumunde uygulanabilir oldugu davacinin iddiasini reddetmistir Amerika Birlesik Devletleri disinda 2006 yili Subat ayinda Danimarka Denizcilik ve Ticaret Mahkemesi Kopenhag Home dk Danimarkali yasa veya cakismamasi emlak sitesi portal sitesi OfiR dk sistematik taranmasina indeksleme ve derin baglama hukmetti Avrupa Birligi direktifi veritabani 2009 yilinda Facebook bilinen bir web kaziyici karsi ilk telif takim elbise birini kazandi Bu mahkemelerin internette oldugu gibi adil kullanim adlandirilan elimden dogrudan telif hakki ihlali ve cok net parasal zararlar En son durumda olmak AP v erime suyundan olusan birlikte kazima herhangi bir web kravat sayisiz davalar icin zemin hazirlamistir Subat yargi konularinda karmasik 2 010 dava Irlanda nin Yuksek Mahkemesi ictihatlarini gelistirme inchoate durumunu gosteren bir karar verdi Ryanair Ltd v Billigfluege de GmbH sirketinin durumunda Irlanda nin Yuksek Mahkemesi yasal olarak baglayici olmasini Ryanair click wrap anlasmasi hukmetti ABD Bolge Mahkemesi Dogu Virginia Bolge ve Danimarka Denizcilik ve Ticaret Mahkemesi bu bulgular aksine Sayin Adalet Michael Hanna Ryanair in hukum ve kosullara kopru acikca gorunur oldu ve o hukmetti uzerinde yukumluluklerini de ortadan yerlestirerek kullanici bir sozlesme iliskisi icermesi yeterlidir cevrimici hizmetlere erismek amaciyla sartlari ve kosullari kabul etmek Karar Irlanda nin Yargitay da temyiz asamasindadir I Avustralya Spam Yasasi 2003 haydutlar web hasat bazi formlari bu sadece e posta adreslerine de gecerlidir ragmen Kayda deger araclari Teknik onlemler botlara durdurmak icinBir web sitesinin yoneticisi durdurmak veya bot yavas cesitli onlemler kullanabilirsiniz Bazi teknikler sunlardir Bir IP adresi ya elle ya da Geolocation ve DNSRBL gibi kriterlere gore engelleme Bu ayni zamanda bu adrese gelen tum tarama engeller Web sitesinin sistem altinda birakabilecek herhangi bir web servis API devre disi birakilmasi Botlar bazen kullanici aracisi dizeleri kullanarak ve robots txt kullanarak bu temelde bloke edilebilir kim beyan Googlebot bir ornektir Diger botlar kendileri ve bir tarayici kullanarak bir insanin arasinda hicbir ayrim yapmak Botlar asiri trafik izleme tarafindan bloke edilebilir Botlar bazen bir kaptan gibi site erisen gercek bir kisi oldugunu dogrulamak icin araclari ile bloke edilebilir Botlar bazen acikca belli CAPTCHA kaliplarini kirmak icin kodlanmis veya okumak ve CAPTCHA zorluklari gercek zamanli olarak cevap insan emegini kullanan ucuncu taraf hizmetleri istihdam edebilir Ticari anti bot hizmetleri Firmalar anti bot ve web siteleri icin hizmet anti kazima sunuyoruz Birkac web uygulama guvenlik duvarlari yani sira bot algilama yetenekleri sinirlidir Bir bal kupu veya baska bir yontemle botlar yerlerinin otomatik tarayicilarinin IP adreslerini tespit etmek Gizleme okuyucu kullanicilari ekrana erisilebilirlik pahasina telefon numaralari veya e posta adresleri gibi verileri goruntulemek icin CSS sprite kullanarak Botlar bir bot ilk kurulumunda daha insani katilimini gerektirir onemli verileri ve navigasyon elemanlari cevreleyen HTML CSS kucuk varyasyonlari ekleme ve etkin bir hale getirebilir yapilirsa hedef web sitesinin on uc kod tutarlilik dayandiklarindan nedeniyle kazima islemini otomatiklestirmek icin azalmis yetenegi kazimak icin cok zor bir web sitesi hedef MakalelerWeb Kazima Bilmeniz Wanted ama sormak korktular Her sey TekniklerWeb kazima otomatik olarak World Wide Web uzerinden bilgi toplama islemidir Mevcut web kazima cozumleri ad hoc insan cabasi gerektiren tum websitelerini yapilandirilmis verilere donusturen tam otomatik sistemler ve bazi sinirlamalar arasindadir Insan kopyalamasi ve yapistirmasi Bazen en iyi web kazima teknolojisi bile insanin manuel incelemesini ve kopyalama ve yapistirmalarinin yerini alamaz ve web kazimaya karsi bir engel varsa bazen bu tek uygulanabilir cozum olabilir Metin aramasi ve duzenli ifade eslesmesi Web sayfalarindan bilgileri ayiklamak icin basit ama guclu bir yaklasim olan UNIX in grep komutuyla ya da programlama dillerinin ornegin Perl veya Python duzenli ifade eslestirme tesislerine dayali olabilir HTTP programlama Statik ve dinamik web sayfalari soket programlama kullanarak uzak web sunucusuna HTTP isteklerini gondererek alinabilir HTML ayristiricilari Bircok web sitesi bir veritabani gibi altta yatan yapisal bir kaynaktan dinamik olarak olusturulan sayfalarin buyuk koleksiyonlari olabilir Ayni kategorideki veriler genellikle ortak bir komut dosyasi veya sablona benzer sayfalar olarak kodlanmistir Veri madenciliginde bir program belirli bir bilgi kaynagindaki bu tur sablonlari bulur icerigi ayiklar ve sarici denilen iliskisel forma cevrilir Ayrica XQuery gibi bazi yari yapilandirilmis veri sorgulama dilleri ile HTML ayristirilabilir ve sayfa icerigi donusturulmek icin kullanilabilir DOM ayristirma Programlar Internet Explorer veya Mozilla gibi tam tesekkullu gomulu web tarayicilariyla istemci scriptleri tarafindan olusturulan dinamik icerikleri alabilir Bu browser kontrolleri DOM agacindan sayfalari ayirabilir herhangi bir program sayfalardan bu parcalari alabilir Web kazima yazilimlari Bazi yazilim araclari ozellestirilebilir web kazima cozumleri sunar Bu yazilimlar sayfanin yapisini otomatik olarak taniyabilir elle web kazima kodlari yazma zorunlulugunu ortadan kaldiran arayuzler icerigi cikartmak ve donusturmek icin bazi script fonksiyonlari ve kazilmis icerigi yerel veritabanina kaydetmek icin veritabani arayuzleri saglayabilir Dikey toplama platformlari Bazi sirketler web kazima platformlari gelistirmistir Bu platformlar insan mudahalesi olmayan bazi dikeyler icin cok sayida bot uretir ve gozler Hicbir calisma belirli siteler icin yapilmaz Hazirlik tum dikeyler icin bilgi tabaninin kurulmasi ve sonra platformun botlari otomatik olarak olusturulmasini icerir Bilgisayar goruslu web sayfasi analistleri Bunlar makine ogrenimi ve bilgisayar gorusu kullanarak insan gibi yorumlanmis sayfa gorsellerinden web sayfasindaki bilgileri goruntuler ve tanimlar Taninmis araclarArchive is cURL HTTrack Node js Scrapy SimpleTest Wget Wireshark YQL Ayrica bakinizData scrapingKaynakca a b Roush Wade 25 Temmuz 2012 Diffbot Is Using Computer Vision to Reinvent the Semantic Web www xconomy com 27 Nisan 2013 tarihinde kaynagindan Erisim tarihi 15 Mart 2013 Ticketmaster Corp v Tickets com Inc 20 Agustos 2007 28 Eylul 2007 tarihinde kaynagindan Erisim tarihi 20 Agustos 2007 The Free Library 13 Haziran 2003 5 Mart 2016 tarihinde kaynagindan arsivlendi Erisim tarihi 26 Subat 2012 Adler Kenneth A 29 Temmuz 2003 11 Subat 2011 tarihinde kaynagindan arsivlendi Erisim tarihi 27 Ekim 2010 PDF 17 Eylul 2010 23 Temmuz 2011 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 27 Ekim 2010 PDF bvhd dk 24 Subat 2006 12 Ekim 2007 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 30 Mayis 2007 Is web scraping illegal depends on what the meaning of the word is is 10 Ocak 2016 tarihinde kaynagindan Erisim tarihi 9 Ocak 2016 Matthews Aine Haziran 2010 Issue 26 June 2010 LK Shields Solicitors Update s 03 24 Haziran 2012 tarihinde kaynagindan arsivlendi Erisim tarihi 19 Nisan 2012 National Office for the Information Economy Subat 2004 PDF Australian Communications Authority s 6 21 Mayis 2009 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 9 Mart 2009 National Office for the Information Economy Subat 2004 PDF Australian Communications Authority s 20 7 Nisan 2009 tarihinde kaynagindan PDF arsivlendi Erisim tarihi 9 Mart 2009 Web Scraping Everything You Wanted to Know but were afraid to ask Distil Networks 22 Temmuz 2015 7 Kasim 2015 tarihinde kaynagindan Erisim tarihi 4 Kasim 2015