Robot engelleme standardı, (aynı zamanda Robot engelleme protokolü veya robots.txt olarak da bilinir) web böceği (İngilizce: web spawler) veya web örümceği (İngilizce: web spider) gibi yazılımların web sunucularının kamuya açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.
Standart Hakkında
Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Örneğin, web sitenizde arama motorunda çıkmasını istemediğiniz mahrem bilgiler olabileceği gibi ya da sitenizdeki belirli bir içeriğin arama motorlarında çıkmasının sitenin bütününü yanlış tanıtacağı ya da yanlış anlaşılmalara yol açabileceği durumlarda olabilmektedir. Bu gibi durumlar dosyanın kullanım amaçlarından bazı örneklerdir.
Ana domain ile beraber birçok alt-domain'i bulunan web siteleri için, her bir alt-domain kendine ait bir robots.txt dosyasına sahip olmalıdır. Örneğin;
example.com domain'i kendine ait bir robots.txt dosyasına sahipse, fakat a.example.com altında bu dosya yok ise, arama motoru robotları olmayan siteyi arama sayfalarında tarama yaptıysa, listeleyecektir.
Dezavantajları
Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolü uygulamasına ihtiyaç duymaktadır. Yani sitenize bir robots.txt dosyası koymanız, mahremiyetinizi garanti altına almamaktadır. Bazı web site idarecileri robots dosyalarını web sitelerinin özel bölümlerini tüm dünyaya görünmez yapmak için kullanmayı denediler fakat dosyanın kamuya açık olması gerekmekteydi ve dosyanın içeriği bir web tarayıcısı olan herkese açıktı.
Robots.txt dosyası için herhangi bir resmi standart kurum ya da RFC (İng. Request For Comments - internet ve internetin çalışması ile ilgili metotlar araştırmalar ve bilgilerin bulunduğu dokümanlar arşivi) yoktur. Sadece bir robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden ibarettir. Robotlar tarafından erişilmesinin istenmediği bölümlerin bulunduğu robots.txt dosyası, sitenin kök dizininde bulunmalıdır. Dosya içeriğinde kullanılabilecek metinler aşağıda ayrıca açıklanmıştır.
Otomatik İçerik Kullanım Protokolü
İngilizcesi Automated Content Access Protocol olan ve Dünya Gazeteler Birliği tarafından başlatılan bu girişimin amacı, kendi ifadelerine göre, gazete ve dergi içeriklerinin izinsiz kullanılmasını önlemek. Bu amaçla geliştirilen yazılım; gazete ve dergi içeriklerinin kullanımını denetliyor, bunun için izin alınmasını kolaylaştırıyor, izinsiz kullanılan malzemeyi saptıyor ve fikri hakların takibi için müthiş bir destek sağlıyor. Bu uygulamada web sitelerinin içeriğini tarayıp izinsiz kullanım olup olmadığını tarayacağı sistemi nedeni ile, Robot Engelleme Standardının gelecekteki muhtemel eklentisi olarak görülmektedir.
Örnek Kullanımlar
Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; " * " yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.
User-agent: * Disallow:
Bütün robotların, site üzerindeki hiçbir dosyayı taramaması istenen örnek;
User-agent: * Disallow: /
Bütün robotlar, site üzerindeki aşağıdaki 4 klasörün içeriğini indekslememeli;
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
İsmi verilen robot, site üzerindeki ismi verilen klasörün içeriğini indekslememeli;
User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir. Disallow: /private/
Bütün robotlar, site üzerindeki aşağıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.
User-agent: * Disallow: /directory/file.html
a harfi ile başlayan içerikleri engelleme
User-agent: * Disallow: /a #Bu kullanımda siteadi.com/a içeriğinin yanı sıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.
Kod içinde yorum yazılan örnekler;
# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir. User-agent: * # bütün botları kapsasın Disallow: / # bütün botları uzak tutsun
Wordpress için admin ve giriş panelinde örnek kullanım;
User-agent: * Allow: / Disallow: /wp-admin/* Disallow: /wp-login/* Disallow: /cgi-bin/
Blogger için arama sonuçları ve etiketlerde örnek kullanımı;
User-agent: * Disallow: /search Disallow: /search?q= Allow: /
Uyumluluk
Bütün robotların, bütün sayfalara erişiminin istenmediği durumlarda
Disallow: * # yıldız kullanmak pek uygun olmayacağı için onun yerine " / " kullanın.
Standart Dışı Kullanımlar
Geciktirme komutları
Çoğu büyük web arama botları geciktirme komutunu destekler. Örneğin aşağıdaki örnekte robottan ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır.
User-agent: * Crawl-delay: 10
İzin Ver komutu
Bazı büyük botlar, Allow (izin ver ) komutu kullanarak Disallow (kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt'nin ilk satırı uygulamaya konulabilir. Fakat Google'ın uygulamasında önce tüm Allow (izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Örneğin;
Allow: /folder1/myfile.html Disallow: /folder1/
Bu örnekte folder1/myfile.html hariç o klasördeki tüm dosyalar göz ardı edilir.
Gelişmiş Standartlar
Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.
User-agent: * Disallow: /downloads/ Request-rate: 1/5 # her 5 saniyede maksimum 1 sayfa Visit-time: 0600-0845 # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi
Bu standardın ilk versiyonunda " * " ya da " Disallow " diye herhangi bir komut yoktu. Googlebot ve Slurp gibi modern arama botları " * " lı komutları tanısa da, MSNbot ve Teoma bu komutu farklı şekilde anlamaktadır.
En İyi Uygulamalar
- Web sitenizin taranmasını istediğiniz hiçbir içeriğini engellemediğinizden emin olun.
- Robots.txt tarafından engellenen sayfalardaki bağlantılar taranmayacaktır. Bu da demek oluyor ki: Diğer arama motorlarına erişilebilen sayfalar (yani, robots.txt, meta robotlar veya başka bir yolla engellenmeyen sayfalar) bağlantılı olmadıkça, kaynaklar taranmayacak ve dizine eklenmeyecektir. Engellenen sayfalar arası veri eşitliği sağlanamaz. Eşitliğin sağlanmasını istediğiniz sayfalarınız varsa, robots.txt dışında farklı bir engelleme mekanizması kullanabilirsiniz.
- SERP sonuçlarında hassas verilerin (özel kullanıcı bilgileri gibi) görünmesini engellemek için robots.txt dosyasını kullanmayın. Diğer sayfalar doğrudan özel bilgiler içeren bir sayfaya (domaininizin ana sayfasındaki robots.txt yönergelerini atlayarak) bağlanabileceğinden, izin vermediğiniz dizine erişebilir. Sayfanızı arama sonuçlarından engellemek istiyorsanız, parola koruması veya noindex meta yönergesi gibi farklı yöntemler kullanabilirsiniz.
- Bazı arama motorlarında birden fazla kullanıcı aracısı vardır. Örneğin, Google, aramalar için Googlebot’u ve görsel arama için Googlebot-Image’i kullanır. Aynı arama motorundaki çoğu kullanıcı aracısı aynı komutlara göre hareket eder, böylece bir arama motorunun birden fazla tarayıcısının her biri için yönergeler ayrı komutlar atamanıza gerek kalmaz. Ancak bunu yapabilmeniz için site içeriğinizin nasıl taranacağını iyi ayarlayabilmeniz gerekir.
- Bir arama motoru robots.txt içeriğini önbelleğe alır, ancak genellikle önbellek içeriğini günde en fazla bir kez günceller. Dosyayı değiştirirmek ve olduğundan daha hızlı bir şekilde güncellemek istiyorsanız, robots.txt URL’nizi Google’a gönderebilirsiniz.
Ayrıca bakınız
Dış bağlantılar
- Google SSS (Türkçe)17 Aralık 2008 tarihinde Wayback Machine sitesinde .
- Robots Exclusion (İng.)7 Kasım 2007 tarihinde Wayback Machine sitesinde .
- Using the robots.txt analysis tool (İng.)17 Mart 2009 tarihinde Wayback Machine sitesinde .
- About Robots.txt at the Mediawiki website (İng.)1 Temmuz 2009 tarihinde Wayback Machine sitesinde arşivlendi.
- More info about Robots.txt (İng.)17 Aralık 2008 tarihinde Wayback Machine sitesinde .
- Wikipedia's Robots.txt - an example (İng.)17 Aralık 2008 tarihinde Wayback Machine sitesinde arşivlendi.
Kaynakça
- ^ . Robotstxt.org. 17 Mayıs 2008 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2008.
- ^ "Medyalens". Medyalens. 11 Ocak 2009 tarihinde kaynağından . Erişim tarihi: 16 Aralık 2008.
- ^ . Hacoos. 19 Ocak 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Ocak 2020.
- ^ . Yahoo! Slurp. 20 Kasım 2011 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 31 Mart 2007.
- ^ . Troubleshoot issues with MSNBot and site crawling. 7 Mayıs 2008 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 8 Şubat 2007.
- ^ . 10 Kasım 2015 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 16 Aralık 2008.
- ^ . MSNbot issues with robots.txt. 1 Nisan 2010 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 1 Nisan 2007.
- ^ "Robots.txt Dosyası - HACOOS". 4 Aralık 2022 tarihinde kaynağından . Erişim tarihi: 15 Şubat 2021.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Robot engelleme standardi ayni zamanda Robot engelleme protokolu veya robots txt olarak da bilinir web bocegi Ingilizce web spawler veya web orumcegi Ingilizce web spider gibi yazilimlarin web sunucularinin kamuya acik bolumlerinin tamamina veya bir kismina erisimini engellemeye yarayan bir standarttir Genelde web sitelerini siniflandirmak ve arsivlemek amaci ile arama motorlari ya da duzeltilmis kaynak kodlari icin site yoneticileri robotlari kullanirlar Robotlar bu islem sonucunda web siteleri icin site haritalari olustururlar Standart HakkindaBir web sitesinin kodunda bulunan robots txt isimli dosya robotlara yaptiklari indeksleme calismalarinda o sitenin tamamini veya belirli bir bolumunu indekslememesini goz ardi etmesini talep eder Ornegin web sitenizde arama motorunda cikmasini istemediginiz mahrem bilgiler olabilecegi gibi ya da sitenizdeki belirli bir icerigin arama motorlarinda cikmasinin sitenin butununu yanlis tanitacagi ya da yanlis anlasilmalara yol acabilecegi durumlarda olabilmektedir Bu gibi durumlar dosyanin kullanim amaclarindan bazi orneklerdir Ana domain ile beraber bircok alt domain i bulunan web siteleri icin her bir alt domain kendine ait bir robots txt dosyasina sahip olmalidir Ornegin example com domain i kendine ait bir robots txt dosyasina sahipse fakat a example com altinda bu dosya yok ise arama motoru robotlari olmayan siteyi arama sayfalarinda tarama yaptiysa listeleyecektir DezavantajlariBu protokol tamamen tavsiye niteliginde istege bagli olmasina ragmen web robotlarinin bu protokolu uygulamasina ihtiyac duymaktadir Yani sitenize bir robots txt dosyasi koymaniz mahremiyetinizi garanti altina almamaktadir Bazi web site idarecileri robots dosyalarini web sitelerinin ozel bolumlerini tum dunyaya gorunmez yapmak icin kullanmayi denediler fakat dosyanin kamuya acik olmasi gerekmekteydi ve dosyanin icerigi bir web tarayicisi olan herkese acikti Robots txt dosyasi icin herhangi bir resmi standart kurum ya da RFC Ing Request For Comments internet ve internetin calismasi ile ilgili metotlar arastirmalar ve bilgilerin bulundugu dokumanlar arsivi yoktur Sadece bir robot mail grubu olan robots request nexor co uk uyeleri tarafindan 30 Haziran 1984 tarihinde ulasilmis bir fikir birliginden ibarettir Robotlar tarafindan erisilmesinin istenmedigi bolumlerin bulundugu robots txt dosyasi sitenin kok dizininde bulunmalidir Dosya iceriginde kullanilabilecek metinler asagida ayrica aciklanmistir Otomatik Icerik Kullanim ProtokoluIngilizcesi Automated Content Access Protocol olan ve Dunya Gazeteler Birligi tarafindan baslatilan bu girisimin amaci kendi ifadelerine gore gazete ve dergi iceriklerinin izinsiz kullanilmasini onlemek Bu amacla gelistirilen yazilim gazete ve dergi iceriklerinin kullanimini denetliyor bunun icin izin alinmasini kolaylastiriyor izinsiz kullanilan malzemeyi saptiyor ve fikri haklarin takibi icin muthis bir destek sagliyor Bu uygulamada web sitelerinin icerigini tarayip izinsiz kullanim olup olmadigini tarayacagi sistemi nedeni ile Robot Engelleme Standardinin gelecekteki muhtemel eklentisi olarak gorulmektedir Ornek KullanimlarButun robotlarin site uzerindeki butun dosyalari tarayabilecegine izin veren ornek yildiz isareti istisnasiz tum robotlari indeksleme yapabilecegini gosterir User agent Disallow Butun robotlarin site uzerindeki hicbir dosyayi taramamasi istenen ornek User agent Disallow Butun robotlar site uzerindeki asagidaki 4 klasorun icerigini indekslememeli User agent Disallow cgi bin Disallow images Disallow tmp Disallow private Ismi verilen robot site uzerindeki ismi verilen klasorun icerigini indekslememeli User agent BadBot BadBot kelimesi ilgili botun adi ile degistirilir Disallow private Butun robotlar site uzerindeki asagidaki dosyayi indekslememeli O klasordeki diger butun dosyalar ve sayfalar taratilir User agent Disallow directory file html a harfi ile baslayan icerikleri engelleme User agent Disallow a Bu kullanimda siteadi com a iceriginin yani sira a harfi ile baslayan siteadi com about icerigi de engellenmis olur Bu yuzden engellemeyi kullanirken lutfen dikkatli olalim Kod icinde yorum yazilan ornekler Yorumlar isaretinden sonra bir satir basinda ya da bir komuttan sonra kullanilabilir User agent butun botlari kapsasin Disallow butun botlari uzak tutsun Wordpress icin admin ve giris panelinde ornek kullanim User agent Allow Disallow wp admin Disallow wp login Disallow cgi bin Blogger icin arama sonuclari ve etiketlerde ornek kullanimi User agent Disallow search Disallow search q Allow UyumlulukButun robotlarin butun sayfalara erisiminin istenmedigi durumlarda Disallow yildiz kullanmak pek uygun olmayacagi icin onun yerine kullanin Standart Disi KullanimlarGeciktirme komutlari Cogu buyuk web arama botlari geciktirme komutunu destekler Ornegin asagidaki ornekte robottan ilgili web sitesinden 10 saniyelik araliklar ile bilgi cekmesi istemi yapilmistir User agent Crawl delay 10 Izin Ver komutu Bazi buyuk botlar Allow izin ver komutu kullanarak Disallow kisitla komutunu etkisizlestirmeye imkan verirler Bu ozellikle butun klasordeki sadece bir dosyanin ya da sayfanin taranmasini istediginiz durumlarda faydali olacaktir Fakat dikkat edilmelidir ki genelde standart olarak robots txt nin ilk satiri uygulamaya konulabilir Fakat Google in uygulamasinda once tum Allow izin ver komutlari isleme konulur daha sonra Disallow komutlari isleme konulur Ornegin Allow folder1 myfile html Disallow folder1 Bu ornekte folder1 myfile html haric o klasordeki tum dosyalar goz ardi edilir Gelismis StandartlarBu standardi gelistirmek icin Visit time ziyaret saati ve request rate talep orani gibi cesitli onerilerin yapildigini An Extended Standard for Robot Exclusion Robot Engelleme icin gelismis bir standart adi altinda bir takim oneriler yapilmistir User agent Disallow downloads Request rate 1 5 her 5 saniyede maksimum 1 sayfa Visit time 0600 0845 sadece 06 00 ile 08 45 UTC GMT saatleri arasinda ziyaret edilme talebi Bu standardin ilk versiyonunda ya da Disallow diye herhangi bir komut yoktu Googlebot ve Slurp gibi modern arama botlari li komutlari tanisa da MSNbot ve Teoma bu komutu farkli sekilde anlamaktadir En Iyi UygulamalarWeb sitenizin taranmasini istediginiz hicbir icerigini engellemediginizden emin olun Robots txt tarafindan engellenen sayfalardaki baglantilar taranmayacaktir Bu da demek oluyor ki Diger arama motorlarina erisilebilen sayfalar yani robots txt meta robotlar veya baska bir yolla engellenmeyen sayfalar baglantili olmadikca kaynaklar taranmayacak ve dizine eklenmeyecektir Engellenen sayfalar arasi veri esitligi saglanamaz Esitligin saglanmasini istediginiz sayfalariniz varsa robots txt disinda farkli bir engelleme mekanizmasi kullanabilirsiniz SERP sonuclarinda hassas verilerin ozel kullanici bilgileri gibi gorunmesini engellemek icin robots txt dosyasini kullanmayin Diger sayfalar dogrudan ozel bilgiler iceren bir sayfaya domaininizin ana sayfasindaki robots txt yonergelerini atlayarak baglanabileceginden izin vermediginiz dizine erisebilir Sayfanizi arama sonuclarindan engellemek istiyorsaniz parola korumasi veya noindex meta yonergesi gibi farkli yontemler kullanabilirsiniz Bazi arama motorlarinda birden fazla kullanici aracisi vardir Ornegin Google aramalar icin Googlebot u ve gorsel arama icin Googlebot Image i kullanir Ayni arama motorundaki cogu kullanici aracisi ayni komutlara gore hareket eder boylece bir arama motorunun birden fazla tarayicisinin her biri icin yonergeler ayri komutlar atamaniza gerek kalmaz Ancak bunu yapabilmeniz icin site iceriginizin nasil taranacagini iyi ayarlayabilmeniz gerekir Bir arama motoru robots txt icerigini onbellege alir ancak genellikle onbellek icerigini gunde en fazla bir kez gunceller Dosyayi degistirirmek ve oldugundan daha hizli bir sekilde guncellemek istiyorsaniz robots txt URL nizi Google a gonderebilirsiniz Ayrica bakinizArama motoru optimizasyonuDis baglantilarGoogle SSS Turkce 17 Aralik 2008 tarihinde Wayback Machine sitesinde Robots Exclusion Ing 7 Kasim 2007 tarihinde Wayback Machine sitesinde Using the robots txt analysis tool Ing 17 Mart 2009 tarihinde Wayback Machine sitesinde About Robots txt at the Mediawiki website Ing 1 Temmuz 2009 tarihinde Wayback Machine sitesinde arsivlendi More info about Robots txt Ing 17 Aralik 2008 tarihinde Wayback Machine sitesinde Wikipedia s Robots txt an example Ing 17 Aralik 2008 tarihinde Wayback Machine sitesinde arsivlendi Kaynakca Robotstxt org 17 Mayis 2008 tarihinde kaynagindan arsivlendi Erisim tarihi 16 Aralik 2008 Medyalens Medyalens 11 Ocak 2009 tarihinde kaynagindan Erisim tarihi 16 Aralik 2008 Hacoos 19 Ocak 2020 tarihinde kaynagindan arsivlendi Erisim tarihi 19 Ocak 2020 Yahoo Slurp 20 Kasim 2011 tarihinde kaynagindan HTML arsivlendi Erisim tarihi 31 Mart 2007 Troubleshoot issues with MSNBot and site crawling 7 Mayis 2008 tarihinde kaynagindan HTML arsivlendi Erisim tarihi 8 Subat 2007 10 Kasim 2015 tarihinde kaynagindan HTML arsivlendi Erisim tarihi 16 Aralik 2008 MSNbot issues with robots txt 1 Nisan 2010 tarihinde kaynagindan HTML arsivlendi Erisim tarihi 1 Nisan 2007 Robots txt Dosyasi HACOOS 4 Aralik 2022 tarihinde kaynagindan Erisim tarihi 15 Subat 2021