Задачу поиска страниц, содержащих нужную информацию, решают полнотекстовые поисковые системы, которые имеют специальные программы, называемыми пауками или роботами. Они занимаются поиском страниц, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют найденную информацию в базе данных. В Рунете наиболее известны поисковые машины Яндекс, Google и Рамблер.
Каждый поисковый механизм имеет собственный набор правил, определяющих, каким образом cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Другие игнорируют ссылки, которые ведут к графическим и звуковым файлам и т.д.
Важной задачей для робота, который собирает информацию о ресурсах для поисковой системы, является обнаружение как можно большего количества разнообразных ресурсов. Поэтому роботы зачастую используют в качестве оценки “полезности’’ ресурса глубину ссылок, т.е. количество промежуточных каталогов, упоминающихся в ссылке между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов. Собранная таким образом информация заносится в базу данных и позволяет находить страницы с нужной информацией в том виде, когда ее в последний раз посещал робот.