рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы

Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы - Лекция, раздел Образование, Новые Информационные Технологии ...

Новые информационные технологии

 

Лекция № 2.2. Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы

1. Новые информационные технологии (3)

1.1. Основные классы естественно-языковых систем

1.1.1. Функциональные компоненты естественно-языковых систем1.1.2. Сравнительная характеристика основных классов ЕЯ-систем1.1.2.1. Интеллектуальные вопросно-ответные системы

1.1.2.1.1. Информационно-поисковые системы

1.1.2.1.2. Системы общения с базами данных

1.1.2.1.3. Экспертные системы

1.1.2.1.4. Диалоговые системы решения задач

1.1.2.1.5. Интеллектуальные хранилища и цифровые библиотеки

1.1.2.2.Системы распознавания речи

1.1.2.2.1. Системы распознавания изолированно произносимых команд

1.1.2.2.2. Системы распознавания ключевых слов в потоке слитной речи

1.1.2.2.3. Системы распознавания слитной речи

1.1.2.2.4. Подход «анализ-через-синтез»

1.1.2.2.5. Системы чтения по губам

1.1.2.3.Системы обработки связных текстов

1.1.2.3.1. Системы реферирования текстов

1.1.2.3.2. Системы сравнения и классификации текстов

1.1.2.3.3. Системы кластеризации текстов

1.1.2.4.Системы синтеза

1.1.2.4.1. Системы синтеза речи

1.1.2.4.2. Системы клонирования голоса

1.1.2.4.3. Системы синтеза видеоряда по тексту

1.1.2.5.Системы машинного перевода. Системы понимания речи (текстов)

1.1.2.5.1. Системы фразового перевода1.1.2.5.2. Системы контекстного перевода1.1.2.5.3. Системы понимания речи (текстов)

1.1.2.6.Онтологии и тезаурусы

1.1.2.7.Речевые и текстовые базы

1.1.2.8.Компоненты интеллектуальных систем

1.1.3. Сравнительная характеристика естественно-языковых систем 2.2.1. Интеллектуальные вопросно-ответные системыВ настоящее время наиболее массовым продуктом, подпадающим под категорию интеллектуальных вопросно-ответных систем, являются (57) информационно поисковые системы.2.2.1.1. Информационно-поисковые системыНаиболее известные информационно-поисковые системы GOOGLE, Yandex, Rambler, имеют приблизительно одинаковые возможности и функциональность. Единственное (58) отличие системы GOOGLE от остальныхносит скорее технический характер: эта система реализована как параллельная распределенная система с использованием большого количества процессоров с памятью собственного производства. Возможно, именно это отличие сыграло решающую роль в несомненном превосходстве этой системы перед всеми остальными, хотя и имеющими более интеллектуальные функции. (59) Обработка естественного языка в этой и других информационно-поисковых системах играет не очень большую роль, но зато объем их использования в системах человеко-машинного общения очень велик.

Рис. 2.2. Типичная информационно-поисковая система.

(60) Основные функции информационно-поисковой системы сводятся к парсингу источников, индексированию текстов, извлеченных из источников, обработке запроса пользователя, сравнению проиндексированных текстов базы с запросом пользователя, выдаче результатов.Недавно в системе GOOGLE появился речевой ввод, позволяющий вводить в систему ограниченный по объему запрос голосом. Еще одной функцией, используемой в информационно-поисковых системах, является функция представления структуры модели мира системы, являющейся средством навигации по ресурсам системы.

Таким образом, стандартная (61) информационно-поисковая система содержит семь основных компонентов (см. рис. 2.2): блок ввода информации, блок парсинга, блок индексирования источников, блок обработки запросов пользователя, блок сравнения текстов источников с запросом пользователя, представленным на естественном языке, блок вывода результатов, и блок структурирования предметных областей и навигации.

Основной задачей реализации ввода является представление исходного множества текстов и запроса пользователя в виде, удобном компьютеру. Дело в том, что в силу большого объема обрабатываемой информационно-поисковыми системами информации (62) тексты обрабатываемых документов обычно не хранятся в системе. Хранятся только их представления. Тексты берутся из хранилища (хранилищ) и обрабатываются, время от времени (обычно циклически).

(63) Таким представлением текста может быть, например, список ключевых слов, извлеченных из текста (представленный векторно-пространственной, или n-граммной моделями), но может быть и сеть совместной встречаемости слов в фрагментах текста.

Основная идея (64) векторно-пространственной модели проста: текст описывается лексическим вектором в евклидовом пространстве, каждому компоненту вектора соответствует некоторый объект, содержащийся в тексте (слово, словосочетание, названия фирм, должности, имена и т.п.), который называется термом. Каждомуиспользуемому в тексте терму ставится в соответствие его вес (значимость), определяемый на основе статистической информации о его встречаемости в отдельном тексте. Размерность вектора – это количество термов, которые встречаются в текстах.

(65) В полиграммной модели текст представляется вектором, где элементы вектора – все комбинации символов длины n из алфавита M (для русского языка M = 33). Каждому элементу вектора ставится в соответствие частота встречаемости соответствующей n-граммы в тексте. Размерность вектора для произвольного текста жестко фиксирована и составляет 333= 35937 элемента. Однако, как показывает практика, в реальных текстах реализуется не более 25-30 процентов n-грамм от общего допустимого их числа, т.е. для русского языка их не более 7000.

(66) Сеть совместной встречаемости слов в фрагментах текста. Текст представляется множеством понятий в их взаимосвязях. И понятия и связи оцениваются их весом.

(67) Запрос пользователя, представленный на естественном языке, обрабатывается способом, аналогичным обработке информации при индексации текстов источников, чтобы упростить сравнение этих естественно-языковых текстов. На этапе сравнения, собственно, и реализуются стратегии поиска

Таким образом, помимо способов внутреннего представления текста, в информационно-поисковых системах существенную роль играет способ классификации (сравнения) текстов. (68) В настоящее время практическое применение получили классификаторы следующие типов:

1. (69) Статистические классификаторы на основе вероятностных методов. Наиболее известным в данной группе является семейство Байесовых классификаторов. Их общей чертой является процедура классификации, в основе которой лежит формула Байеса для условной вероятности.

Классический метод классификации текстов делает очень сильные предположения о независимости участвующих событий (появления слов в документах), но практика показывает, что наивный байесовский классификатор оказывается весьма эффективен.

2. (70) Классификаторы, основанные на функциях подобия. Наиболее характерными для таких классификаторов является использование лексических векторов модели терм-документ, которые так же применяются и в нейронных классификаторах. В качестве меры подобия обычно берется косинус угла между векторами, вычисляемый через скалярное произведение.

В свете выше описанного (72) в системах информационного поиска используются следующие стратегии.

1. (73) На основе ключевых слов. Ключевые слова обычно снабжаются весовыми характеристиками, которые определяют вес слова в тексте. В основе числовой характеристики лежит частота встречаемости слов в тексте. Однако смысловой вес слова отличается от частоты его появления в тексте.

2. Очень важна (74) информация о порядке следования ключевых слов в фрагментах текста. Для увеличения эффективности поиска в этом случае вместо ключевых понятий используются n-граммы ключевых понятий.

3. При поиске используется также частота совместной встречаемости ключевых слов в фрагментах текста. Внутренняя структура текста (75) в терминах ключевых слов в их взаимосвязях – смысловой портрет текста– является основой представления текста в информационно-поисковых системах. Смысловой портрет текста позволяет выявить логическую структуру текста (и логическую структуру всего корпуса текстов), которые улучшают качество поиска и ускоряют его.

4. В последнее время при поиске начали использовать так называемое (76) нечеткое сравнение.

Для улучшения результатов поиска пользователь может изменить запрос. Для этого существует обратная связь. (77) Обработка информации в информационно-поисковой системе включает структуризацию информации с целью последующей навигации, в том числе, ее кластеризацию.

Под (76) выводом результатов надо понимать те ссылки на исходный текст (тексты), которые система выдает пользователю. Это может быть система цитат, номера документов, хранящие анализируемые тексты.

(77) Поиск нужной информации в сети с помощью поисковой системы обычно осуществляется следующим образом. Пользователь вводит в диалоговое окно поисковой системы один или более поисковых терминов. Поисковая система возвращает результаты поиска, отвечающие этим поисковым терминам. Например, поисковая система может возвратить список адресов в сети (URL-адресов), которые указывают документы, содержащие один или более поисковых слов запроса.

Классы ЕЯ систем Уровни представления информации (функции)
Акустико-фонети-ческий Морфоло-гический Лекси-ческий Синтакси-ческий Модель мира Прагма-тический Сравнение (классификация)
Вопросно-ответные системы
Информационно-поисковые системы -(+) + + - (+) - (+) - +
2.2.1.2. Системы общения с базами данныхИнтерес к ЕЯ-системам данного класса связан с тенденцией хранения информации в структурированных хранилищах данных. (78) Концепция базы данных лежит в основе подавляющего большинства современных систем обработки данных. Для обеспечения взаимодействия с конечными пользователями системы управления базами данных (СУБД) предоставляют специальные формализованные языки. Однако, как правило, эти языки ориентированы на пользователей, обладающих специальными знаниями. В частности, они должны знать основные приемы программирования, синтаксис языка запросов, логическую структуру БД, термины, используемые в БД для обозначения сущностей предметной области, и т.п. (68) ЕЯ-системы общения с базами данных предназначены для использования в качестве посредника (ЕЯ интерфейса) между неподготовленными конечными пользователями (т. е. специалистами в прикладных проблемных областях, не обладающими указанными выше знаниями) и БД. Другими словами, они должны позволять получать информацию, хранящуюся в БД, по запросам, сформулированным на ЕЯ. В системах общения с БД общение ведется в форме связного диалога, т.е. ответы на вопросы пользователя выдаются с учетом его предыдущих вопросов и/или предыдущих ответов системы. Инициатива в диалоге в основном принадлежит пользователю. Перехват инициативы допускается лишь для уточнения незнакомых системе слов и исправления орфографических ошибок. Язык общения является подмножеством естественного языка, семантически ограниченным предметной областью, отображаемой в БД. В высказываниях пользователя допускаются многие общепринятые синтаксические конструкции. Кроме того, допускаются определенные неправильности: орфографические ошибки, пропуск слов, ошибки в пунктуации, неправильное употребление строчных и прописных букв и ряд типичных диалоговых конструкций: эллипсис и анафорические ссылки. Ответы ЕЯ-системы строятся таким образом, чтобы обеспечить, насколько это возможно, дружественность общения. (69) Система ПОЭТ, рассмотренная в данном разделе, является примером системы общения с базой данных. При разработке интеллектуальных вопросно-ответных систем основное внимание уделяется языковому аспекту, т. е. максимальному приближению языка общения к литературному естественному языку. Наиболее значительной из отечественных систем данного класса является система ПОЭТ, созданная коллективом исследователей под руководством Э.В. Попова, во многом определившая применяемые в последующих системах методы анализа и генерации высказываний на русском языке.Система ПОЭТ воспринимает вопросительные предложения русского языка с практически несущественными ограничениями на допустимые синтаксические конструкции и пунктуацию. Типичными примерами запросов, допускаемых системой ПОЭТ, могут служить «Сколько каменного угля перевезено железнодорожным транспортом в 1978 году?» или «Каков удельный вес перевозок железнодорожным транспортом в общем объеме перевозок всеми видами транспорта в 1975 году?» Процесс понимания входных высказываний в системе ПОЭТ осуществляется по полной схеме: морфологический анализ, синтаксический анализ, семантический анализ и семантическая интерпретация (рис. 2.4). При этом последние три этапа выполняются в общем случае параллельно, за счет чего достигается коррекция неверных путей анализа, и, в конечном счете, сокращается время обработки запросов. Поскольку система ПОЭТ не является системой распознавания речи, акустико-фонетический уровень анализа отсутствует.Все знания о языке общения разделяются в системе ПОЭТ на лингвистические и проблемные. Первые хранятся в различных зонах словаря (морфологической и синтактико-семантической), а вторые - в семантической сети. При этом в системе различаются абстрактная (описывающая общие понятия и категории) и конкретная (описывающая конкретные сущности) семантические сети. Описания базовых событий представлены в словаре системы в виде моделей управления. Выделение участников событий и определение выполняемых ими ролей осуществляются на основе метода фильтров. При этом активно используется как грамматическая, так и синтактико-семантическая информация.(70) На этапе семантического анализа синтаксическая структура входного высказывания, представленная в виде дерева зависимостей, преобразуется в семантический граф, состоящий из вершин-понятий, связанных друг с другом через вершины-события и характеристики. Каждая вершина семантического графа определяется каноническим представлением, а дуги имеют глубинный смысл. Вся числовая и параметрическая информация выносится из графа в дополнительные таблицы. Там же указываются и временные соотношения между событиями.(71) На этапе интерпретации семантический граф запроса сопоставляется с семантической сетью. В результате происходит вычленение контекста, имеющего отношение к запросу, получение содержательной информации из конкретной сети, формирование обращений к базе данных за числовой информацией и получение способа обработки этой информации (суммирование, вычисление процента и т. п.).(72) Семантический граф ответа вырабатывается на базе графа запроса путем внесения в него смысловой информации, полученной на этапе интерпретации.Система ПОЭТ является ЕЯ-системой с генерацией ответов на русском языке. (73) Формирование ответов выполняется следующим образом. По семантическому графу ответа строится дерево зависимостей. Затем каждой вершине приписывается морфологическая информация и определяется порядок слов. На этом заканчивается синтаксический синтез. На этапе морфологического синтеза по таблицам окончаний и морфологической информации, приписанной вершинам дерева зависимостей, осуществляется окончательная генерация поверхностной структуры ответа. Генерация полного ответа, например, «В 1978 году железнодорожный транспорт перевез NNN млн. тонн каменного угля», позволяет пользователю убедиться в правильности понимания системой заданного вопроса.С помощью первых вопросно-ответных систем была показана принципиальная возможность получения ответов на ЕЯ вопросы, относящиеся к ограниченным предметным областям. Так, система ПОЭТ могла отвечать па вопросы о перевозках различных народнохозяйственных грузов. Система ДИСПУТ могла отвечать на вопросы об обслуживании контейнерных перевозок к морскому порту, система LUNAR - о свойствах образцов лунных пород, система LIFER - о дислокации и характеристиках судов военно-морских сил и т. п. Для большинства интеллектуальных вопросно-ответных систем характерна жесткая структура диалога, при которой каждое высказывание пользователя воспринималось как очередной запрос (который не связан с предыдущим). Система играла пассивную роль - она могла лишь отвечать на запросы и выдавать сообщения о неудачах, когда очередной запрос по каким-либо причинам не мог быть проанализирован или обработан. Обработка высказываний сводилась в большинстве случаев к вызову (в соответствии с типом запроса) одной из имеющихся в распоряжении системы специализированных программ и передаче ей в виде параметров условий поиска информации в БД имен сущностей, значения которых должны быть обработаны или выданы в качестве ответа, и т. п.Первые эксперименты с интеллектуальными вопросно-ответными системами показали, что, несмотря на возможность понимания запросов на ЕЯ, данные системы налагают достаточно жесткие (и в общем случае трудновыполнимые) ограничения на процесс общения. Эти ограничения стимулировали дальнейшие исследования, направленные, в первую очередь, на повышение гибкости процесса общения.
Рис. 2.4. Схема вопросно-ответной системы ПОЭТ
Классы ЕЯ систем Уровни представления информации (функции)
Акустико-фонети-ческий Морфоло-гический Лекси-ческий Синтакси-ческий Модель мира Прагма-тический Сравнение (классификация)
Вопросно-ответные системы
Системы общения с БД - - (+) + + + - +
2.2.1.3. Интеллектуальные хранилища и цифровые библиотеки

Интеллектуальные хранилища отличаются от обычных полнотекстовых хранилищ наличием некоторых интеллектуальных функций. Так же как и полнотекстовые хранилища, они имеют удаленный доступ и поисковую систему.

Рассмотрим интеллектуальное хранилища на примере образовательной библиотеки с удаленным доступом и ассоциативной навигацией. Ее архитектура представлена ниже.

В ее состав входит

- серверная;

- клиентская часть;

- упрощенный вебовский интерфейс, доступный с любого компьютера.

На сервере расположено собственно хранилище – база текстовых данных, включающая две независимых части: (1) неизменяемую часть (учебники стандартных курсов); и (2) изменяемую часть – персональную библиотеку (пополняемую текстовую выборку – дополнительную литературу по любой тематике).

Кроме того, на сервере находятся: (1) аналитический модуль, позволяющий сформировать семантическую сеть текста, (2) база знаний – база ассоциативных (семантических) сетей текстов, а также (3) рубрикатор – средства навигации, в том числе, каталог, который позволяет осуществлять ручную навигацию по хранилищу на верхних уровнях классификационного представления, и ассоциативную навигацию – на нижнем уровне, где все тексты свалены в кучу. Помимо этого есть еще (4) средства для автоматической классификации текстов, позволяющие отнести текст к одной из имеющихся рубрик, и (5) средства для автоматической кластеризации текстов, позволяющие разбить текстовую выборку на тематические классы.

Наконец, хранилище снабжено интерфейсом, реализующим удаленный доступ к базе текстов, включающим: (6) клиент, позволяющий осуществлять полный удаленный доступ к хранилищу, (7) упрощенный интерфейс – допускающий лишь частичный удаленный доступ к нему, а также (8) графический интерфейс, в том числе: интерфейс семантических представлений и интерфейс управления библиотекой.

Функциональность библиотеки включает в свой состав:

• хранение учебника, включая тренировочные задания и тестовую часть;

• хранение дополнительной литературы в гипертекстовом представлении;

• загрузку и редактирование учебника пользователем;

• использование учебника пользователем;

• загрузку пользователем дополнительной литературы;

• формирование ассоциативной сети текстовой выборки;

• ассоциативный доступ к дополнительной литературе;

• доступ к дополнительной литературе с использованием рубрикатора;

• удаленный доступ.

 

Так Образовательная библиотека Ресурсного центра гимназии № 1306 как электронный репозитарий с удаленным доступом и ассоциативной навигацией выглядит следующим образом.

 

 

Автоматическая обработка документа в библиотеке включает следующие этапы:

- создание сети текста;

- создание реферата текста;

- Классификация текста (определение рубрики, к которой относится текст).

 

Однородная семантическая (ассоциативная) сеть состоит из ключевых понятий – вершин сети – связанных между собой ассоциативными связями.

 

Формирование сети осуществляется в несколько шагов:

1. сегментация на смысловые фрагменты;

2. удаление стоп-слов, рабочих слов и общеупотребимых слов;

3. морфологический анализ

4. построение частотного портрета

5. перенормировка.

Ответ на запрос пользователя выдается в библиотеке разными способами:

- с помощью ручной навигации по каталогу;

- демонстрацией сети рубрики с возможностью добавления понятий сети к запросу с целью его уточнения;

- выдачей тематических рефератов по текстам документов, которые релевантны запросу.

Классификация осуществляется сравнением сети текста с сетями рубрик, которые формируются на основе анализа текстов, содержащихся в рубрике. Смысловое пересечение текстов вычисляется как пересечение их семантических сетей.

 

Построение реферата осуществляется выявлением предложений текста, имеющих наибольший смысловой вес.

 

Классы ЕЯ систем Уровни представления информации (функции)
Акустико-фонети-ческий Морфоло-гический Лекси-ческий Синтакси-ческий Модель мира Прагма-тический Сравнение (классификация)
Вопросно-ответные системы
Интеллектуальные хранилища - + + - (+) - +

 

– Конец работы –

Используемые теги: основные, Классы, естественно-языковых, систем, интеллектуальные, вопросно-ответные, системы0.107

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Основные классы естественно-языковых систем. Интеллектуальные вопросно-ответные системы

Что будем делать с полученным материалом:

Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Еще рефераты, курсовые, дипломные работы на эту тему:

Лекция 1. Тема: Операционная система. Определение. Уровни операционной системы. Функции операционных систем. 1. Понятие операционной системы
Понятие операционной системы... Причиной появления операционных систем была необходимость создания удобных в... Операционная система ОС это программное обеспечение которое реализует связь между прикладными программами и...

Система координат действия и общая теория систем действия: культура, личнсть и место социальных систем
В центре данного исследования стоит разработка теоретической схемы. Систематическое рассмотрение ее эмпирического использования будет предпринято… Основные положения системы координат действия подробно излагались ранее, и… При помощи ее анализируются структура и процессы систем, состоящих из отношений таких элементов к их ситуациям,…

ДИСПЕРСНЫЕ СИСТЕМЫ: ОСНОВНЫЕ СВОЙСТВА И КЛАССИФИКАЦИЯ. Поверхностные явления. Адсорбция. Электрические свойства дисперсных систем. Электрокинетические явления. Устойчивость и нарушение устойчивости лиофобных золей
ФГБОу впо ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНЖЕНЕРНЫХ ТЕХНОЛОГИЙ... Кафедра физической и аналитической химии...

Лекции по дисциплине Устройство и функционирование информационных систем Раздел 1. Информационные системы. Основные понятия и классификация
Раздел Информационные системы Основные понятия и классификация... Тема Информационные системы Основные понятия и... В данной теме рассматриваются общие понятия относящиеся к операционным системам определяются их типы и базовые...

Основные понятия термодинамики. Предмет термодинамики. Основные параметры состояния термодинамической системы
На сайте allrefs.net читайте: Конспект лекций Дисциплина по учебному плану направления подготовки: 260901 Технология швейных изделий. Омск СОДЕРЖАНИЕ...

Операционная система MS DOS. Основные принципы хранения информации на магнитных дисках в MS DOS. Файловая система MS DOS
Размер Кластера NРазмерСектора N 512 байт, где N 2,4,8 и т.д. FAT - Таблица размещения файлов НАКОПИТЕЛИ НА МАГНИТНЫХ ДИСКАХ Магнитные диски… Для работы с Магнитными Дисками используется устройство, называ- емое… Контроллер дисковода вставляется в один из свободных разъемов сис- темной платы IBM PC MotherBoard. Дисковод содержит…

Основные характеристики и классификация CASE-систем. Классификация CASE-систем. Основные подсистемы CASE-систем.
На сайте allrefs.net читайте: Основные характеристики и классификация CASE-систем. Классификация CASE-систем. Основные подсистемы CASE-систем....

Общие свойства статически неопределимых систем. Степень статической неопределимости. Основная система метода сил.
На сайте allrefs.net читайте: Общие свойства статически неопределимых систем. Степень статической неопределимости. Основная система метода сил....

Тема 1 Особенности и признаки интеллектуальности информационных систем. Системы с интеллектуальным интерфейсом
Т о операционные знания алгоритм и фактуальные знания структура данных неотъемлемы друг от друга Однако если в ходе эксплуатации... Следствием этого является плохая жизнеспособность ИС слабая адаптивность к... В системах основанных на обработке БД происходит отделение фактуального и операционного знаний друг от друга Первое...

0.04
Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • По категориям
  • По работам