Bu madde, uygun değildir.Ocak 2010) ( |
Bu madde olması gerekenden az içermektedir veya içermemektedir.Aralık 2023) ( |
Arama motoru teknolojisinde günümüzde genel amaçlı arama motorlarının yanında belli bir alana yoğunlaşmış arama motoru örnekleri türemektedir. Belli bir alana yoğunlaşmış arama teknolojisine Dikey Arama adı verilmektedir. Dikey arama motorları belli bir alanda bilgi almak isteyen kullanıcıları hedefleyip, İnternet’te bulunan bilgileri bu pencere çerçevesinde tarayıp kullanıcılara sunar.
Dikey Arama Motoru Yapısı
Arama motorları görevlerine göre birden fazla karmaşık teknoloji içermektedir. Bir arama motoru: örümcekler, bilgi ayrıştırıcıları, indeksleyiciler ve arama bileşenlerinden oluşmaktadır. Bu bileşenler arasındaki iletişim yukarıdaki şekilde verilmiştir. Bütün bu bileşenlerin gerekli fonksiyonları yerine getirmeleri için yapay zeka (artificial intelligence), bilgi getirme (information retrieval), bilgi çıkarma (information extraction), doğal dil işleme (natural language processing), eş zamanlı programlama (concurrent programming) gibi teknolojiler kullanılmaktadır.
Ağ Örümcekleri
Ağ Örümcekleri, dikey aramanın hedeflediği alan hakkında bilgi sahibi olan sayfaları bulmaya çalışır. Bu sayfalar içerisinde de yine dikey aramanın hedeflediği ana bilgiye sahip sayfaları çıkarmaya özelleşmiş, alandan haberdar bileşenlerdir. Bir örümcek sisteminin karşılaştığı temel zorluklar:
- Internet’teki sayfa sayısının çokluğu,
- sayfalardaki değişim hızı ve de
- Web teknolojileri ile dinamik sayfa yaratımıdır.
Bahsi geçen sorunların üstesinden gelmek için bir örümceğin sahip olması gereken prensipler vardır:
- Seçim politikası: Örümceğin hangi sayfayı çalıştığı sunucuya indirip daha detaylı inceleyeceğine karar vermesidir.
- Yeniden uğrama politikası: Yine örümceğin bir sayfayı ne kadar zamanda bir yeniden indireceğini seçmesidir.
- Nezaket politikası; Bir Internet sitesi üzerindeki bilgileri indekslenmek amacı ile indirecek olan örümceğin bu sayfaları sunan sunucuyu yormamak ve Internet kullanıcılarına hizmetini engellememek için neler yapması gerektiğini bilmesidir.
- Paralellik politikası: Sayfaların çokluğu, sunucuya indirilecek olan verinin miktarı ve zaman kısıtlaması dolayısı ile hesaba katılan paralel programlama teknkleridir.
Bütün bu politikalar bir örümcek tasarlarken hesaba katılması gereken ve örümceği karmaşıklaştıran unsurlardır. Yine veri miktarının çokluğu verinin toplanması için farklı yeni veri saklama yöntemleri gerektirmektedir.
Bilgi Ayrıştırıcıları
Bilgi ayrıştırıcıları, örümceğin hedef sayfa olarak işaretlediği İnternet sayfalarında bulunan bir kurala bağlı olmadan özgürce hazırlanmış bilgileri (free-text) yapısal bir şekle dönüştürmek istemektedir. Herhangi bir sayfada bulunan ve insanların algılamasına yönelik olarak belli bir yerleşim planında bulunan bilgilerin üzerinde indeksleme ve arama yapılabilecek şekilde yapilandirilmasi Bilgi Çıkarma konusu’na girmektedir. Bu işlem manuel programlama kullanılarak yapılabildiği gibi çeşitli istatistik ve yapay zeka algoritmaları kullanılarak da yapılabilmektedir. Manuel programlama kullanılarak geliştirilen sistemler hedef sayfaların yapılarının sürekli olarak değişmesi sebebiyle problemler yaşarlar. Değişen sayfa yapılarına uyum sağlamak için öğrenen sistemler kullanılmaktadır. Öğrenen sistemler sayesinde ayrıştırıcı önceden görmediği bir sayfadan gerekli bilgiyi eski deneyimlerini baz alarak otomatik bir şekilde çıkarabilmektedir. Bu gibi sistemler ise tutarlı sonuçlar alabilmek için çok büyük miktarda alıştırma bilgisiyle eğitilmek durumundadırlar. Özel anlamlı kelimeleri belirleme (named entity recognition) ve terim çıkarma (term extraction) bu aşamada veriye anlam vermek için yapılan uygulamalardır.
İndeksleyiciler
İndeksleyiciler, veriye hızlı ulaşım için gerekli indeksleri yaratırlar. İndeksleme için Ağaç Yapıları, Ngram’lar gibi yapılar kullanılsa da günümüzde popüler olan indeksleme yöntemlerinden birisi Devrik Matris’lerdir. İndeksleme esnasında, indekslenecek olan yazı dil işleyiciden geçirilip cümlelere ve kelimelere ayrıştırılır. Daha sonrasında her bir kelimenin o dile özel dil işleyici ile kökü bulunur. Sistem dosya sistemi üzerinde yarattığı indekste bu kökleri, köklerin hangi yazılarda ve yazıların nerelerinde olduğunu tutar.
Arama Bileşeni
Son olarak Arama bileşeni kullanıcının sorgusunu alır, sorguyu dil işlemeden geçirerek Devrik İndeks içerisinde kelimeleri arar. Sorguda kullanılan kelimeler, kelimelerin cümle içerisinde bir birlerine uzaklıkları hesaba katılarak bulunan dokümanlar sonuç olarak gönderilir.
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Bu madde Vikipedi bicem el kitabina uygun degildir Maddeyi Vikipedi standartlarina uygun bicimde duzenleyerek Vikipedi ye katkida bulunabilirsiniz Gerekli duzenleme yapilmadan bu sablon kaldirilmamalidir Ocak 2010 Bu madde olmasi gerekenden az ic baglanti icermektedir veya hic icermemektedir Lutfen bu sayfadan ilgili maddelere ic baglanti vermeye calisin Aralik 2023 Arama motoru teknolojisinde gunumuzde genel amacli arama motorlarinin yaninda belli bir alana yogunlasmis arama motoru ornekleri turemektedir Belli bir alana yogunlasmis arama teknolojisine Dikey Arama adi verilmektedir Dikey arama motorlari belli bir alanda bilgi almak isteyen kullanicilari hedefleyip Internet te bulunan bilgileri bu pencere cercevesinde tarayip kullanicilara sunar Dikey Arama Motoru YapisiArama motorlari gorevlerine gore birden fazla karmasik teknoloji icermektedir Bir arama motoru orumcekler bilgi ayristiricilari indeksleyiciler ve arama bilesenlerinden olusmaktadir Bu bilesenler arasindaki iletisim yukaridaki sekilde verilmistir Butun bu bilesenlerin gerekli fonksiyonlari yerine getirmeleri icin yapay zeka artificial intelligence bilgi getirme information retrieval bilgi cikarma information extraction dogal dil isleme natural language processing es zamanli programlama concurrent programming gibi teknolojiler kullanilmaktadir Ag Orumcekleri Ag Orumcekleri dikey aramanin hedefledigi alan hakkinda bilgi sahibi olan sayfalari bulmaya calisir Bu sayfalar icerisinde de yine dikey aramanin hedefledigi ana bilgiye sahip sayfalari cikarmaya ozellesmis alandan haberdar bilesenlerdir Bir orumcek sisteminin karsilastigi temel zorluklar Internet teki sayfa sayisinin coklugu sayfalardaki degisim hizi ve de Web teknolojileri ile dinamik sayfa yaratimidir Bahsi gecen sorunlarin ustesinden gelmek icin bir orumcegin sahip olmasi gereken prensipler vardir Secim politikasi Orumcegin hangi sayfayi calistigi sunucuya indirip daha detayli inceleyecegine karar vermesidir Yeniden ugrama politikasi Yine orumcegin bir sayfayi ne kadar zamanda bir yeniden indirecegini secmesidir Nezaket politikasi Bir Internet sitesi uzerindeki bilgileri indekslenmek amaci ile indirecek olan orumcegin bu sayfalari sunan sunucuyu yormamak ve Internet kullanicilarina hizmetini engellememek icin neler yapmasi gerektigini bilmesidir Paralellik politikasi Sayfalarin coklugu sunucuya indirilecek olan verinin miktari ve zaman kisitlamasi dolayisi ile hesaba katilan paralel programlama teknkleridir Butun bu politikalar bir orumcek tasarlarken hesaba katilmasi gereken ve orumcegi karmasiklastiran unsurlardir Yine veri miktarinin coklugu verinin toplanmasi icin farkli yeni veri saklama yontemleri gerektirmektedir Bilgi Ayristiricilari Bilgi ayristiricilari orumcegin hedef sayfa olarak isaretledigi Internet sayfalarinda bulunan bir kurala bagli olmadan ozgurce hazirlanmis bilgileri free text yapisal bir sekle donusturmek istemektedir Herhangi bir sayfada bulunan ve insanlarin algilamasina yonelik olarak belli bir yerlesim planinda bulunan bilgilerin uzerinde indeksleme ve arama yapilabilecek sekilde yapilandirilmasi Bilgi Cikarma konusu na girmektedir Bu islem manuel programlama kullanilarak yapilabildigi gibi cesitli istatistik ve yapay zeka algoritmalari kullanilarak da yapilabilmektedir Manuel programlama kullanilarak gelistirilen sistemler hedef sayfalarin yapilarinin surekli olarak degismesi sebebiyle problemler yasarlar Degisen sayfa yapilarina uyum saglamak icin ogrenen sistemler kullanilmaktadir Ogrenen sistemler sayesinde ayristirici onceden gormedigi bir sayfadan gerekli bilgiyi eski deneyimlerini baz alarak otomatik bir sekilde cikarabilmektedir Bu gibi sistemler ise tutarli sonuclar alabilmek icin cok buyuk miktarda alistirma bilgisiyle egitilmek durumundadirlar Ozel anlamli kelimeleri belirleme named entity recognition ve terim cikarma term extraction bu asamada veriye anlam vermek icin yapilan uygulamalardir Indeksleyiciler Indeksleyiciler veriye hizli ulasim icin gerekli indeksleri yaratirlar Indeksleme icin Agac Yapilari Ngram lar gibi yapilar kullanilsa da gunumuzde populer olan indeksleme yontemlerinden birisi Devrik Matris lerdir Indeksleme esnasinda indekslenecek olan yazi dil isleyiciden gecirilip cumlelere ve kelimelere ayristirilir Daha sonrasinda her bir kelimenin o dile ozel dil isleyici ile koku bulunur Sistem dosya sistemi uzerinde yarattigi indekste bu kokleri koklerin hangi yazilarda ve yazilarin nerelerinde oldugunu tutar Arama Bileseni Son olarak Arama bileseni kullanicinin sorgusunu alir sorguyu dil islemeden gecirerek Devrik Indeks icerisinde kelimeleri arar Sorguda kullanilan kelimeler kelimelerin cumle icerisinde bir birlerine uzakliklari hesaba katilarak bulunan dokumanlar sonuc olarak gonderilir