Архитектура современных информационно-поисковых систем WWW

Архитектура современных информационно-поисковых систем WWW. Рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, приводятся схемы, которые отличаются друг от друга только применением конкретных программных решений, но не принципом организации различных компонентов системы.

Поэтому рассмотрим эту схему на представленном примере Рис.1 Структура ИПС для Internet На этой схеме обозначены client - это программа просмотра конкретного информационного ресурса. В настоящее время наиболее популярны мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов World Wide Web, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet.

В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы. user interface - интерфейс пользователя - это не просто программа просмотра. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска. Просмотр результатов поиска и информационных ресурсов сети - это совершенно разные вещи, на которых остановимся чуть позже. search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке ИПЯ, в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю. index database - индекс - это основной массив данных информационно-поисковой системы.

Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети. queries - запросы пользователя сохраняются в его личной базе данных.

На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы. index robot - робот-индексировщик служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети. www sites - это весь Internet.

А если говорить более точно, то это те информационные ресурсы, просмотр которых обеспечивается программами просмотра. Рассмотрим теперь назначение и принцип построения каждой из этих компонент более подробно и определим в чем отличие данной системы от традиционной информационно-поисковой системы локального типа. 2.2