Поиск информации в Internet

Поиск информации в Internet.

Сеть Internet растет очень быстрыми темпами, и найти нужную информацию среди десятков миллионов документов (Web-страниц, файлов и др.) становится все сложнее. Для поиска информации используются специальные поисковые сервера, которые содержат более или менее полную, но постоянно обновляемую информацию о Web – страницах, файлах и других документах, хранящихся на десятках миллионов серверов Internet.

Различные поисковые сервера могут использовать различные поисковые механизмы (search engine) поиска, хранения и предоставления пользователю информации. Однако общим является то, что к моменту запроса пользователя, вся информация о документах Internet в компактном виде хранится в базе данных поискового сервера. Имеющиеся поисковые системы можно условно разделить на три группы: 1. Справочники (тематические каталоги) Internet. 2. Поисковые системы общего назначения (индексные). 3. Специализированные поисковые системы.

Справочник Internet является аналогом тематического указателя в библиотеке: он позволяет вам найти наиболее значимые WWW – документы по заданной теме. Примером таких систем является поисковый сервер Yahoo: http://www.yahoo.com Поисковые системы общего назначения позволяют находить документы в WWW по ключевым словам. Принцип, на котором основано большинство таких систем, состоит в том. что специальные программы – роботы автоматически обходят WWW – серверы, читают и индексируют все встречающиеся документы, выделяя при этом ключевые слова, относящиеся к данному документу, и запоминая их вместе с URL этого документа в базе данных.

Большинство поисковых систем разрешают также автору новой Web – страницы самому внести информацию в базу данных. Обращаясь к такой поисковой системе, вы вводите одно или несколько ключевых слов, которые, по вашему мнению, могли бы вывести вас на интересующую информацию, и отправляете запрос одним нажатием мышки ни экранной кнопке, обычно называемой Поиск (Submit). Через несколько секунд поисковая система вернет вам список URL – документов, в которых были найдены указанные вами ключевые слова. Примером такой поисковой системы является Rambler: http://www.rambler.ru Специализированные поисковые системы позволяют вам находить информацию, находящуюся в других информационных «слоях» Internet, смежных с WWW, например, на FTP – серверах.

Примером такой системы является Lycos: http://ftpsearch.lycos.com Так как информация в Internet постоянно меняется (создаются новые документы, удаляются старые и т.д. ) поисковые роботы не всегда успевают отследить все эти изменения.

Информация, хранящаяся в базе данных поискового сервера, может отличаться от реального состояния Internet, и поэтому иногда пользователь может получить ссылку на уже не существующий или перемещенный документ. Интерфейс поисковых серверов обычно примерно одинаков, и поэтому рассмотрим его на примере российского поискового сервера RAMBLER (www.rambler.ru) Начальная страница поисковой системы содержит список разделов, уточняющих область поиска, и поле поиска.

В поле поиска пользователь может ввести ключевые слова для поиска документа, т.е. слова, которые, по мнению пользователя, позволят идентифицировать документ. Пример: поставим задачу найти сведения об учебниках по информатике. Однако перед тем, как ввести ключевые слова в поле поиска, целесообразно сузить область поиска, выбрав из списка разделов категорию Образование.

В качестве ключевых выберем слова: информатика, учебник, каталог – и введём их в поле поиска. В результате мы получим явно избыточную информацию, перечень почти из 90 тысяч документов, так как слово информатика содержится в 7378 документах, слово учебник – в 6153 документах и слово каталог – в 74848. Поиск необходимо уточнить и указать, что вышеперечисленные слова должны присутствовать в документе одновременно. В поле поиска это вводится с использованием логической связки И (&): информатика&учебник&каталог.

В результате утонченного поиска мы получим перечень из 104 документов, что вполне приемлемо. Каждый документ имеет числовой рейтинг, который показывает, насколько полно отвечает заданный документ условиям поиска. Список документов приводится в порядке этого рейтинга, начиная от документа с самым большим рейтингом. В нашем случае этот документ называется Каталог учебников и имеет максимальный рейтинг (1, 0000). Для каждого документа приводится краткая аннотация его содержания и его местонахождение в Internet (универсальный указатель ресурсов). Таким образом, в результате поиска нашли URL Web – страницы (http://textbook.ink-edu.ru/books.html), на которой содержится наиболее полная информация об учебниках по информатике. 16. Публикации в WWW. Публикации в WWW (создание и размещение Web – страниц в Internet) с использование языка разметки гипертекстовых документов HTML – один из самых эффективных и популярных технологий в Internet.

Перечислим наиболее привлекательные свойства HTML – документов:  Простота создания и редактирования гипертекстовых документов.  Возможность использования данных мультимедиа.  Возможность просмотра документов на персональных компьютерах, оснащенных практически любой операционной системой.  Уникальные возможности по созданию динамически изменяющихся интерактивных документов. 17.