Yakın zamana değin İnternet’te bilgiye ulaşmanın en yaygın yolu WWW’de dolaşmaktı (surf etmek). Bu yolla yapılan taramalarda bilgi rastlantıyla bulunuyordu. Belirli bir WWW sayfasındaki bağlantıları izleyerek sayfadan sayfaya yapılan taramalarda kullanıcı elbet bir süre sonra istediği bilgiye ulaşacağını umuyordu. Eğer zamanınız varsa WWW’de gezinmek aslında eğlenceli bir iş. Çünkü yeni yerler keşfediyorsunuz. Ancak başınızda bekleyen bir patronunuz ya da sınırlı bir süre içinde yetiştirmeniz gereken bir işiniz için bilgiye ulaşmanız gerekiyorsa o zaman durum değişir; sayfadan sayfaya gezinirken tekrar tekrar aynı sayfalara bağlanıyorsanız keşfetmek zevki yiter, dahası kab°sa dönüşebilir.
Günümüzde, WWW’de yayımlanan bilgileri aramak ve bunlara daha verimli bir şekilde ulaşmak için, yeni yeni araçlar geliştirildi. Bu yazıda WWW’de bilgiye ulaşmada kullanılan 2 ayrı yol üzerinde duracağız: Konulara göre aşamalı bir biçimde hazırlanmış bir klasörde tarama, tarama araçlarıyla yapılan sözcük taramaları. Ancak bu iki yol arasında tercih yapma dışında sözcük tarama araçlarından hangisinin seçilmesi gerektiği de önemli.
önemli bir rol oynuyor. Klasörler: Yahoo gibi bir klasörün yapılandırılmasında ise insanlar rol oynuyor. WWW arşivlerini yaratanlar bu klasörde kendi WWW arşivlerine giden bağlantılar koymanın yanı sıra bu arşivleri anlatan kısa açıklamalarda bulunuyor; ya da bu sayfaları, daha sonradan gezen klasör editörleri kendi yorumlarını ekliyor. Değişen bir WWW arşivi, klasördeki listelemede hiçbir değişikliğe yol açmıyor.
Melez Tarama Araçları: Bazı tarama araçları kendi dizinlerini tutuyorlar. Bir tarama aracının dizininde WWW arşivinizin olması biraz şans biraz da sayfanızın niteliğine bağlıdır. Kimi zaman kendi WWW arşivinizi bu listeye eklenmesi için form doldurursunuz; ancak bu, listeye gireceği anlamına gelmiyor. Daha sonra dizin editörleri bu formlarda belirtilen sayfalara bir göz atıp sadece ilgi çekici bulduklarını listelerine ekliyorlar.
Tarama araçları üç temel öğeden oluşuyor. Bunlardan ilki örümcek (spider) ya da crawler olarak adlandırılan robotlardır. Bunlar bir WWTW arşivini gezer, içindekileri okuyarak, bu sayfalardan diğerlerine giden bağlantıları izlerler. Bu robotlar her ay ya da iki ayda bir gibi belli sürelerle bu sayfalara bir değişiklik olup olmadığını denetlemek için bakarlar.
Bu robotların bulduğu her şev ta-
landırılan dizinler, örümceklerin bulduğu her WWW arşivinin bir kopya sının bulunduğu büyük bir kitab benzetilebilir. Eğer bir WWW arşiv^ değişirse o zaman bu kitapta yeni bilgilerle güncellenmiş olur.
Bazen bu indekslere yeni arşivle rin ya da bu arşivlerde yapılacak de ğişikliklerin aktarılması biraz zama alabilir. Bu arşivlere örümcekler gek miştir ancak daha henüz dizine geçi rilmemiştir. Dizinlenene değin bıi yeni WWW arşivleri sözcük taran araçları ile bulunamaz.
Tarama araçları yazılımları ise rama aracının üçüncü parçasıdır. Bl dizinlenen milyonlarca sayfa arasın dan yapılan sorgulamaya uyanları uy-| gunluk sırasına göre belli bir sırala mayla verir.
Peki robotlar nereye gidecekler ne nasıl karar veriyorlar? Bu kullanıp lan robota bağlı. Çünkü her robo farklı bir strateji uygular. Genellikle sunumcu listeleri, “Yeni Ne Var” say-l faları ve WWW’deki en popüler say-l falar gibi birçok yere bağlantısı olan adreslerden başlarlar. Ancak gene olarak birçok WWW dizinleme seni si sizden URL adreslerini girmeniz bekler. Bu girişler belli bir sıra soku lur ve daha sonra dizinin robotu tara fından gezilir.
WWW için zararlılar mı? Eskiden! robotlar bilgisayar ağlarını ve sunum-J
WWW Tarama Araçları
Netscape: L»ı 2000
kullanıldığından genel oİ£-jj rak sorun yaratmıyorlar.
Tarama Araçları: HotBot ya da AltaVista gibi tarama araçları kendi üstelerini oto-
* s#
, ts
ııaıvıaı x
bunları topluyor ve arama yapan kişi de bu bulunan sonuçlar üzerinde aramasını gerçekleştiriyor.
Eğer bir WWW sayfasında birtakım değişiklikler yapılmışsa doğal olarak tarama aracı bu değişiklikleri buluyor. Bunda sayfa başlığı, ana yazı ve diğer sayfa öğeleri
/\rşıvıerının
öiraıanması
Bu sıralanan WWW arşivleri elbette ki her zaman doğru olmuyor. Konuyla ilgili olmayan sayfalar da görmeniz mümkün. Bunların arasında hangisinin sizi ilgilendirdiğini bulma bazen
iuuvl
Türkiye’de 1996 yılında hizmet vermeye başlayan Iist2000’de yedi dilde tarama yapılabiliyor. i
ması. Tarama araçları bir arşivin popülerliğini, dizininde bulundurduğu arşivlerinden hangi arşive ne kadar bağlantının gittiğini ölçmesiyle belirler.
Kimi melez tarama araçları da, aynı zamanda klasör bulunduranlar, klasörlerinde bulundurdukları ilgi çeken sayfaları daha ön plana çıkarırlar.
Bütün bunların yanında “meta tag”ları kullanan WWW arşivlerini HotBot ve Infoseek gibi tarama araçları, kendi sorgulama sonuçlarında uyumluluk açısından daha üst sıralara taşır. Bunun dışında Excite meta tag’leri sıralandırmasında göz önünde bulundurmaz.
Bu arada tarama araçları kimi sayfaları dizin dışı tutarlar. Bu sayfalarda kimi sözcükler yüzlerce kez kullanılmıştır ki bu şekilde yapılan arama sonucundaki sıralamada bu sayfalar üst sıralara çıkabilsin.
Peki bu tarama araçlarından hangisi en iyisi? Aslında bu tamamen sizin ne istediğinize bağlı. Çünkü yukarıdaki nedenlerden dolayı birbirlerine göre büyük farklılıklar gösteriyorlar. Ancak dizinlerinde bulundurdukları sayfaya baktığımızda AltaVis-ta’nın 100 milyon sayfayla, HotBot (80 milyon) ve Excite’in (55 milyon) önünde olduğunu görüyoruz. AltaVista, HotBot ve Lycos’un günde taranan sayfa sayısı ise 10 milyon civarında. Sayfaların tazelenme süresi ise AltaVjÿfl’da 1 günden 3 aya, Excite 1-3 hafta, HotBot 1 günden 2 haftaya, InfoSeek dakikadan 2 aya kadar, Lycos’da ise 1-2 hafta civarında.
ı: , \ f ,T^
■i i i ■* \ i r* ■ ■ i k \ i
vant Knowledge şirketlerinin araştırmaları sonucu yapılan sıralamaya göre en üst sırada bulunan Yahoo en yakın takipçisi olan Excite’dan iki kat daha fazla ziyaretçi çekiyor. Ziyaretçi sayısı yönünden sırasıyla InfoSeek, Lycos, AltaVista ve WebCrawler bunları izliyor. Elbette ziyaretçi sayısı bir tarama aracının en iyisi olduğunu göstermiyor. Ancak çoğu bilgisayar dergisi bu tarama araçları arasından kendi dergilerinde en iyisini seçiyor. Bu ya derginin editörleri ya da okuyucular tarafından seçiliyor. Sonuçlara baktığımızda dergiler tarafından en çok beğenilen tarama aracı HotBot görünüyor.
Kullanılan Teknoloji
Bu tarama servislerini vermek elbette kolay bir iş değil. Bunun jçin, en geniş dizin kapasitesine sajpp taVista 16 tane AlphaServer 8400 sunumcusundan yararlanıyor. Bunların her birinde yaklaşık 8 GB bellek var (kaba bir şekildp 500 tane 1(5 MB belleğe sahip kişisel bilgisayar diye düşünülebilir). Bu arada yapılan sorgulamalara hızlı cevap verebilmek aynı zamanda hızlı İnternet bağlantısı da gerektiriyor. Örneğin AltaVista saniyede 100 megabit ile DIGITAL Palo Alto gateway üzerinden İnter-net’e bağlı.