Roboty sieciowe

Nie będę tu przedstawiał zasad działania robotów ani żadnych innych schematów procesów indeksowania, ponieważ chcę tylko wymienić najważniejsze i liczące się programy przeglądające zasoby naszych stron internetowych:

  • Yahoo! Slurp to nazwa robota Yahoo.
  • Msnbot to robot Microsoftowego Binga.
  • Googlebot tego pana w szczególności nie trzeba przedstawiać – 94% wyszukiwań w Polsce bazuje na tym, co on znajdzie.
  • Methabot.
  • PolyBot.
  • RBSE chyba jeden z pierwszych – o ile nie pierwszy robot sieciowy w sieci ;)
  • WebCrawler jako pierwszy użyty został do wyszukiwań opartych na przeszukiwaniu treści strony.
  • World Wide Web Worm ten robot indeksował jedynie tytuły stron i ich adresy URL.
  • WebFountain dodać tylko mogę, że tym programem rządzi polityka równości. Indeksuje strony sprawiedliwie, wszystkie z taką samą częstotliwością.
  • WebRACE w przeciwieństwie do innych robotów, ten nie potrzebuje pierwszego adresu by zacząć indeksowanie, a w zasadzie nigdy nie zaczyna od podsuwanych mu propozycji. Sam szuka sobie miejsca od, którego może zacząć indeksować stronę www.

Opensourcowe programy (roboty) sieciowe

  • Aspseek robot “pełzacz”, indeksujący i zarazem silnik wyszukujący.
  • crawler4j napisany w Java program, dobry do celów edukacyjnych.
  • DataparkSearch pająk i silnik wyszukiwarki w jednym..
  • GNU Wget podobnie jw. z tą różnicą, że działa na poziomie linii poleceń i służy głównie do wyszukiwania plików w sieci www lub ftp.
  • GRUB nazwa podobna do bootloadera, ale jest to tak naprawdę połączenie pajączka z wyszukiwarką sieciową.
  • Heritrix napisany w Java program, bardziej nadający się do archiwizowania informacji z indeksowanych stron.
  • ht://Dig kolejne połączenie pełzacza z silnikiem wyszukiwarki.
  • HTTrack ciekawy program, tworzy kopię strony do przeglądania off-line.
  • ICDL Crawler ten pełzający robot wyróżnia się tym, że działa jedynie w niewykorzystanej części zasobów procesora.
  • mnoGoSearch robot “pełzacz”, indeksujący i zarazem silnik wyszukujący.
  • Open Search Server pająk sieciowy i silnik wyszukiwarki w jednym..
  • Pavuk coś podobnego do HTTrack, robi kopię strony off-line
  • YaCy darmowa wyszukiwarka, stworzona głównie dla sieci P2P.

To tyle na razie…nudny post, ale z grubsza wymienione kilka najważniejszych robotów i ich darmowe wersje. Szczególnie te drugie polecam, ale nie dla instalowania na stronach i serwerach, tylko w celach edukacyjnych. By prześledzić ich działanie na poziomie kodu źródłowego. Wiele rzeczy można się nauczyć…

Stron:
Skomentuj ?

1 Komentarze.

  1. pierwszywgoogle

    Nie nudny i super, że to znalazłem ;) Wielkie dzięki!

    (BTW nie wiesz czy da się odpalić Open Search Server inaczej niż na localhost?)

Reply to pierwszywgoogle ¬
Cancel reply


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Please leave these two fields as-is:

Protected by Invisible Defender. Showed 403 to 6,851 bad guys.