рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Традиционные информационно-поисковые языки и их модификации

Работа сделанна в 2005 году

Традиционные информационно-поисковые языки и их модификации - Курсовая Работа, раздел Связь, - 2005 год - Основные принципы информационно-поисковых систем Традиционные Информационно-Поисковые Языки И Их Модификации. Наиболее Распрос...

Традиционные информационно-поисковые языки и их модификации. Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов.

При этом используются булевые операторы AND, OR, NOT. Запрос при этом может выглядеть следующим образом информационная and система or ИПС not СУБД В данном случае эта фраза означает Найди все документы, которые содержат одновременно слова информационная и система, либо слово ИПС, но не содержат слова СУБД. Запрос можно рассматривать как и реальный документ из базы данных. В нашем случае, фактически, мы имеем дело с двумя запросами информационная and система not СУБД и ИПС not СУБД каждый из которых подразумевает как бы два действия сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять те, которые содержат термин СУБД. Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно - поисковых системах.

Но еще 20 лет тому назад были хорошо известны и ее недостатки. Булевый поиск плохо масштабирует выдачу.

Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом.

Модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа.

При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска. Языки типа Like this При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических конвекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается sin угла, который получают как скалярное произведение двух векторов.

В соответствии со значением меры близости происходит ранжирование документов при выдаче ссылок на них пользователю. Вообще говоря, скалярное произведение не очень хорошо подходит для информационно-поисковых систем Internet, так как длина запроса обычно невелика. Это в традиционных системах существовали специальные службы, которые отлаживали длинные запросы, а в Internet такие службы только нарождаются.

Поэтому реально применяются другие меры близости, но принцип остается тот же сначала вычисляется мера, а потом происходит ранжирование. Рассмотренный подход дает возможность более мягкого расширения и уточнения запросов, но он также не гарантирует высоких показателей релевантности, в случае выбора неудачной лексики. Поиск в нечетких множествах При этом типе поиска весь массив документов описывается как набор нечетких множеств терминов.

Каждый термин определяет некую монотонную функцию принадлежности документам документального массива. Когда запрашивается AND, то это интерпретируется как минимум из двух функций, соответствующих терминам запросов, OR - как максимум, NOT - как 1- значение функции. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости.

Следует сразу сказать, что этот метод поиска используется только в исследовательских системах и распространен крайне ограничено. Пороговые модели Как было видно из предыдущего изложения, на конечном этапе поиска выборка найденных документов ранжируется. Но, совершенно очевидно, что меры близости или поиск в нечетких множествах приводит к ранжированию всего массива документов в базе данных. Современные информационно - поисковые системы Интернет имеют базы данных только индексов, занимающие терабайты.

Ранжировать целиком такие массивы - это просто безумная затея. Поэтому применяются пороговые модели, которые задают пороговые значения для документов, выдаваемых пользователю. Кластерная модель и Вероятностная модель информационного поиска В кластерной модели может использоваться два подхода. Первый заключается в том, что массив заранее разбивается на подмножества документов и при поиске высчитывается близость запроса некоторому подмножеству. В другом подходе кластер накручивается вокруг запроса и ближайших к нему терминов.

Наиболее часто эта модель применяется в системах, уточняющих запрос по релевантности найденных документов. При вероятностной модели вычисляется вероятность принадлежности документа классу релевантных запросу документов. При этом используется вероятность принадлежности терминов запроса каждому из документов базы данных. Коррекция запроса по релевантности Многие системы применяют механизм коррекции запроса по релевантности. Это означает, что процедура поиска носит интерактивный и итеративный характер.

После проведения первичного поиска пользователь отмечает из всего списка найденных документов релевантные. На следующие итерации система расширяетуточняет запрос пользователя терминами из этих документов и снова выполняет поиск. Так продолжается до тех пор пока пользователь не сочтет, что лучшего результата, чем он уже имеет добиться не удастся. Коррекция запроса по релевантности - это достаточно широко внедренный способ уточнения запросов.

В некоторых системах пользователь может и не знать, о том, что эта процедура применяется, например, OpenText. В этом случае несколько итераций выполняется без его вмешательства. Весь этот краткий обзор современного состояния ИПЯ ставил перед собой одну простую задачу определить степень развития и современный уровень информационно-поисковых средств Интернет. 2.4

– Конец работы –

Эта тема принадлежит разделу:

Основные принципы информационно-поисковых систем

Одним из наиболее ярких явлений этого процесса является возникновение и развитие глобальной информационной компьютерной сети. С появлением… В самом деле, если подумать то Интернет- это единая информационная среда, но с… Да и не только Интернет стал толчком для создания Информационно-поисковых систем.

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Традиционные информационно-поисковые языки и их модификации

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Понятие информационно - поисковой системы
Понятие информационно - поисковой системы. Информационно-поисковая система - совокупность информационно поискового правил перевода с естественного языка на информационно - поисковый и обратного пер

Информационный язык
Информационный язык. Информационно-поисковый язык - знаковая система, предназначенная для описания путм индексирования основного смыслового содержания текстов документов или их частей, а также для

Архитектура современных информационно-поисковых систем WWW
Архитектура современных информационно-поисковых систем WWW. Рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, приводятся схемы, которые отличаются др

Информационные ресурсы и их представление в системе
Информационные ресурсы и их представление в системе. Как видно из схемы документальным массивом ИПС Internet является все множество документов шести основных типов WWW-страницы, Gopher-файлы, докум

Информационно-поисковые языки Интернет
Информационно-поисковые языки Интернет. При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми польз

Применение языков на практике
Применение языков на практике. Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза Best on the Web Подразумевалось

Интерфейс системы
Интерфейс системы. Важным фактором является вид представления информации в программе-интерфейсе. При этом различают два типа интерфейсных страниц страницы запросов и страницы результатов пои

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги