Информационный поиск.

Internet предназначен для публикации информации и гипертекстовой связи отдельных информационных документов. Для поиска в Internet используются:

· поисковые системы;

· каталоги;

· страницы с поиском по нескольким системам;

· тематические поисковые системы и каталоги;

· коллекции ссылок.

Современные поисковые системы имеют многоуровневую организацию, в основе своей все они состоят из пяти программных компонентов:

Spider (паук) – эта браузероподобная программа планомерно путешествует по сети и скачивает все попавшиеся ей на пути Web – узлы (страницы по глобальным URL – ссылкам). Spider работает как любой Web – браузер, только ничего не визуалирует, а лишь считывает HTML – код;

Crawler – (сборщик, или путешествующий паук) – это порождаемый Spider-ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Его основные задачи – сканирование Internet – ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, исходя из найденных ссылок и заданного списка адресов;

Indexer (индексатор) – ключевая программа поисковой системы, которая анализирует Web – страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, структурные элементы, стилевые элементы и т.д. По окончании анализа он строит базы данных в удобном для поиска виде;

Database (база данных) – хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации;

Gateway (шлюз или собственно поисковая машина) – принимает запросы от пользователей, анализирует их, извлекает результаты поиска из базы данных и предоставляет интерфейс для просмотра этих результатов.