Internet предназначен для публикации информации и гипертекстовой связи отдельных информационных документов. Для поиска в Internet используются:
· поисковые системы;
· каталоги;
· страницы с поиском по нескольким системам;
· тематические поисковые системы и каталоги;
· коллекции ссылок.
Современные поисковые системы имеют многоуровневую организацию, в основе своей все они состоят из пяти программных компонентов:
Spider (паук) – эта браузероподобная программа планомерно путешествует по сети и скачивает все попавшиеся ей на пути Web – узлы (страницы по глобальным URL – ссылкам). Spider работает как любой Web – браузер, только ничего не визуалирует, а лишь считывает HTML – код;
Crawler – (сборщик, или путешествующий паук) – это порождаемый Spider-ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Его основные задачи – сканирование Internet – ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, исходя из найденных ссылок и заданного списка адресов;
Indexer (индексатор) – ключевая программа поисковой системы, которая анализирует Web – страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, структурные элементы, стилевые элементы и т.д. По окончании анализа он строит базы данных в удобном для поиска виде;
Database (база данных) – хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации;
Gateway (шлюз или собственно поисковая машина) – принимает запросы от пользователей, анализирует их, извлекает результаты поиска из базы данных и предоставляет интерфейс для просмотра этих результатов.