рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Информационные ресурсы и их представление в системе

Работа сделанна в 2005 году

Информационные ресурсы и их представление в системе - Курсовая Работа, раздел Связь, - 2005 год - Основные принципы информационно-поисковых систем Информационные Ресурсы И Их Представление В Системе. Как Видно Из Схемы Докум...

Информационные ресурсы и их представление в системе. Как видно из схемы документальным массивом ИПС Internet является все множество документов шести основных типов WWW-страницы, Gopher-файлы, документы Wais, записи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных.

Здесь есть и текстовая информация, и графическая информация, и аудио информация и вообще все, что есть в указанных выше хранилищах. Естественно встает вопрос, как информационно-поисковая система должна со всем этим работать.

В традиционных системах есть понятие поискового образа документа - ПОДа. ПОД Поисковый Образ Документа - это нечто, что заменяет собой документ и используется при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл.

Если быть более точным, то документу приписывается вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия термина в ПОДе документа или его отсутствия. В более сложных моделях термины взвешиваются, т.е. элемент вектора равен не 1 или 0, а некоторому числу, которое отражает соответствие данного термина документу. Именно последняя модель наиболее популярна в информационно-поисковых системах Internet.

Вообще говоря, существуют и другие модели описания документов вероятностная модель информационных потоков и поиска, и модель поиска в нечетких множествах. Анализ преимуществ и недостатков применения этих моделей при реализации информационно-поисковых систем в Internet - это тема специального исследования. Здесь имеет смысл обратить внимание читателя только на то, что пока именно линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText, AliWeb и ряде других.

Исследования по применению других моделей также ведутся, например, в рамках проекта AltaVista или научными группами. Таким образом, первая задача, которою должна решить информационно-поисковая система - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается.

Такая процедура является только частным случаем, а точнее техническим аспектом создания поискового аппарата информационно-поисковой системы. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов.

В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы. Таким образом, все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако, на момент актуализации словарь также фиксировался.

Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался. Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОДов документов Gopher.

В World Wide Web ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики. Разработка роботов - это довольно нетривиальная задача, т.к. существует опасность зацикливания робота или попадания на виртуальные страницы. Все системы имеют своего робота.

Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, какие термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. В настоящее время различные роботы используют для индексирования следующие источники для пополнения своих виртуальных словарей гипертекстовые ссылки, заголовки title, заглавия H1, H2 и т.п аннотации, списки ключевых слов и полные тексты документов, сообщения администраторов о своих Web-страницах9. Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков - поля Subject и Keywords.

Наибольший простор для построения ПОДов дают HTML-документы. Однако не следует думать, что все термины из перечисленных выше элементов документов попадают в их поисковые образы. Очень активно используются списки запрещенных слов stop-words, которые не могут быть использованы для индексирования, общих слов предлоги, союзы и т.п а также часто производится нормализация лексики.

Таким образом, даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с целым набором различных словарей, после которого термин попадает в поисковый образ документа, а потом и в индекс системы. Для того, чтобы не раздувать словарей и индексов, а индекс Lycos, например, равен 4TB, применяется такое понятие как вес термина10. Документ обычно индексируется 406 - 1008 наиболее тяжелых терминами.

После того, как ресурсы заиндексированы, т.е. система составила массив поисковых образов документов, начинается построение поискового аппарата системы. Совершенно очевидно, что лобовой просмотр файла или файлов ПОДов займет много времени, что абсолютно не приемлемо для интерактивной системы, которой является Web. Для того, чтобы можно было быстро находить информацию в базе данных ПОДов строится индекс.

Индекс в большинстве систем - система связанных между собой файлов, которая нацелена на быстрый поиск данных по запросу пользователя. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов. К этим факторам можно отнести и размер массива поисковых образов, и информационно-поисковый язык системы, и размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы6. Этот проект выбран потому, что он позволяет реализовывать не только примитивный булевый поиск, но и контекстный поиск, взвешенный поиск и ряд других возможностей, которые отсутствуют во многих поисковых системах, например Internet, Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц page-ID, таблицы ключевых слов Keyword-ID, таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного списка IL и прямого списка FL. Page-ID отображает идентификаторы станиц в URL этих страниц, Keyword-ID отображает каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков отображает идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок отображает идентификатор страниц в гипертекстовую ссылку на эту страницу.

Инвертированный список ставит в соответствие каждому ключевому слову список пар номер документа, идентификатор страницы, позиция слова в странице, а прямой список - это массив поисковых образов страниц.

Все эти файлы так или иначе используются при поиске, но главным среди них, безусловно, является файл инвертированного списка.

Результат поиска в этом файле - это объединение иили пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Для того, чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, с этих пар начинающихся, а также применяется механизм прямого доступа к данным - хеширование.

Для обновления индекса применяется комбинация двух подходов. Первый можно назвать коррекцией индекса на ходу. Для этого служит таблица модификации страниц. Суть такого решения довольно проста старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса, т.е. его перезагрузка.

Успех информационно-поисковой системы с точки зрения скорости поиска, определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является секретом фирмы и гордостью компании. Для того, чтобы убедиться в этом, достаточно почитать материалы OpenText11. 2.3

– Конец работы –

Эта тема принадлежит разделу:

Основные принципы информационно-поисковых систем

Одним из наиболее ярких явлений этого процесса является возникновение и развитие глобальной информационной компьютерной сети. С появлением… В самом деле, если подумать то Интернет- это единая информационная среда, но с… Да и не только Интернет стал толчком для создания Информационно-поисковых систем.

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Информационные ресурсы и их представление в системе

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Понятие информационно - поисковой системы
Понятие информационно - поисковой системы. Информационно-поисковая система - совокупность информационно поискового правил перевода с естественного языка на информационно - поисковый и обратного пер

Информационный язык
Информационный язык. Информационно-поисковый язык - знаковая система, предназначенная для описания путм индексирования основного смыслового содержания текстов документов или их частей, а также для

Архитектура современных информационно-поисковых систем WWW
Архитектура современных информационно-поисковых систем WWW. Рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, приводятся схемы, которые отличаются др

Традиционные информационно-поисковые языки и их модификации
Традиционные информационно-поисковые языки и их модификации. Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов. При этом используются

Информационно-поисковые языки Интернет
Информационно-поисковые языки Интернет. При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми польз

Применение языков на практике
Применение языков на практике. Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза Best on the Web Подразумевалось

Интерфейс системы
Интерфейс системы. Важным фактором является вид представления информации в программе-интерфейсе. При этом различают два типа интерфейсных страниц страницы запросов и страницы результатов пои

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги