Поисковые системы (search engines)

Ярким представителем поисковых систем является, например, международная AltaVista (www.altavista.com) или российский Rambler (www.rambler.ru).

Поисковые системы состоят из трех основных частей:

  1. Spider (он же Crawler, он же Bot, он же Robot) - программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индекисрует страницу снова.
  2. Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Spider'ом страниц.
  3. Программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему на гора в порядке убывания релевантности найденые документы. Каждая поисковая система имеет своего собственного спайдера, со своими собственными "повадками". Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.