Полнотекстовые поисковые системы

Задачу поиска страниц, содержащих нужную информацию, решают полнотекстовые поисковые системы, которые имеют специальные программы, называемыми пауками или роботами. Они занимаются поиском страниц, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют найденную информацию в базе данных. В Рунете наиболее известны поисковые машины Яндекс, Google и Рамблер.

Каждый поисковый механизм имеет собственный набор правил, определяющих, каким образом cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам и т.д.

Важной задачей для робота, который собирает информацию о ресурсах для поисковой системы, является обнаружение как можно большего количества разнообразных ресурсов. Поэтому роботы зачастую используют в качестве оценки “полезности’’ ресурса глубину ссылок, т.е. количество промежуточных каталогов, упоминающихся в ссылке между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов. Собранная таким образом информация заносится в базу данных и позволяет находить страницы с нужной информацией в том виде, когда ее в последний раз посещал робот.