Новые информационные технологии

Новые информационные технологии

 

Лекция № 2.3. Основные классы естественно-языковых систем. Системы распознавания речи

1. Новые информационные технологии (3)

1.1. Основные классы естественно-языковых систем

1.1.1. Функциональные компоненты естественно-языковых систем1.1.2. Сравнительная характеристика основных классов ЕЯ-систем1.1.2.1. Интеллектуальные вопросно-ответные системы

1.1.2.1.1. Информационно-поисковые системы

1.1.2.1.2. Системы общения с базами данных

1.1.2.1.3. Экспертные системы

1.1.2.1.4. Диалоговые системы решения задач

1.1.2.1.5. Интеллектуальные хранилища и цифровые библиотеки

1.1.2.2.Системы распознавания речи

1.1.2.2.1. Системы распознавания изолированно произносимых команд

1.1.2.2.2. Системы распознавания ключевых слов в потоке слитной речи

1.1.2.2.3. Системы распознавания слитной речи

1.1.2.2.4. Подход «анализ-через-синтез»

1.1.2.2.5. Системы чтения по губам

1.1.2.3.Системы обработки связных текстов

1.1.2.3.1. Системы реферирования текстов

1.1.2.3.2. Системы сравнения и классификации текстов

1.1.2.3.3. Системы кластеризации текстов

1.1.2.4.Системы синтеза

1.1.2.4.1. Системы синтеза речи

1.1.2.4.2. Системы клонирования голоса

1.1.2.4.3. Системы синтеза видеоряда по тексту

1.1.2.5.Системы машинного перевода. Системы понимания речи (текстов)

1.1.2.5.1. Системы фразового перевода1.1.2.5.2. Системы контекстного перевода1.1.2.5.3. Системы понимания речи (текстов)

1.1.2.6.Онтологии и тезаурусы

1.1.2.7.Речевые и текстовые базы

1.1.2.8.Компоненты интеллектуальных систем

1.1.3. Сравнительная характеристика естественно-языковых систем 2.2.2. Системы распознавания речи

Системы распознавания речи делятся на три основных категории: системы покомандного распознавания, системы распознавания слитной речи и системы понимания речи.

Наиболее сложным аспектом предмета распознавания речи является его междисциплинарный характер и необходимость применения комплексного подхода к решению частных проблем. Перечислим дисциплины, которые могут решать те или иные проблемы распознавания речи:

- обработка сигналов;

- физика (акустика);

- распознавание образов;

- теория информации и теория коммуникации;

- лингвистика;

- физиология, в том числе, нейрофизиология;

- компьютерные науки;

- психология, в том числе нейропсихология;

- математика;

- нейроинформатика.

Продукция речи начинается с формулирования сообщения, которое он хочет передать слушающему. Следующий шаг – конвертация сообщения в языковой код. Сообщения представляется последовательностью фонем, соответствующих звукам, составляющим слова, сопровождающихся просодическими маркерами, определяющими длительность фонем, громкость и ударения в соответствующих местах. Языковой код преобразуется в нейромышечные команды, определяющие сокращение и вибрацию связок, а также в форму речевого тракта, необходимую для производства конкретных звуков. На выходе мы имеем речевую волну. Нейромышечные команды одновременно управляют движением губ, языка, зубов, а также перегородки, которая позволяет реализовать назализованные звуки.

Дошедшая до слушающего речевая волна возбуждает стоячую волну на базилярной мембране внутреннего уха. При этом реализуется спектральный анализ входной речевой волны. Волосковые клетки преобразуют отклик базилярной мембраны в активность слухового нерва, которая эквивалентна потоку первичных признаков речевой волны. Далее эта активность в корковом конце слухового анализатора преобразуется в языковой код, который подвергается процессу понимания.

Рис.2.1. Схематическая диаграмма процесса порождения/восприятия речи человеком (по Фланагану [1]).

 

Процесс порождения/восприятия речи, как он принят в теории и практике распознавания речи, выглядит более машиноподобно (см. Рис. 2.2). Он синхронизирован со шкалой скорости передачи информации. Процесс формирования сообщения в дискретных символах соответствует скорости передачи 50 бит/сек., соответствующих 8 произносимым звукам в секунду. После конвертации сообщения в языковой код с добавлением просодической информации информационная скорость возрастает до 200 бит/сек. На уровне нейромышечного управления скорость передачи информации возрастает до 2000 бит/сек, а на уровне звуковой волны – до 30000-50000 бит/сек. Обратный процесс распознавания речи симметричен по скоростям передачи информации процессу порождения.

 

 

Рис.2.2. Взгляд на процесс порождения/восприятия речи с точки зрения компьютерных наук.

 

 

Рис. 2.3. Общая блок-схема ориентированной на задачу системы распознавания речи.

 

Общая модель распознавания речи, представленная на Рис. 1.1. начинается с порождения пользователем речевого сигнала с целью выполнения некоторой задачи. Сначала речевой сигнала декодируется в последовательность слов, которая удовлетворяет требованиям синтаксиса, семантики и прагматики. Значения распознанных слов затем уточняются в соответствие с контекстом ранее распознанных сообщений. Обратная связь от верхних уровней уменьшает сложность задачи распознавания ограничением перебора гипотез распознавания. Отвечает система пользователю синтезированным речевым сигналом, или некоторым ожидаемым от нее действием.

 

2.2.2.1. Коммуникационный акт

Структура коммуникационного акта.

Рис. 2.4. Информационно-кодовая модель коммуникации Шеннона и Уивера Механизм ее работы таков – сначала коммуникатор решает, какое из имеющихся сообщений ему активировать. После выделения…

Правило Байеса.

1) все события попарно несовместны: ; 2) их объединение образует пространство элементарных исходов W: … .

Структура коммуникационной системы человека

Р.О. Якобсон [3] интерпретировал идеи К. Шеннона для лингвистики. В модели коммуникации, или речевого события, по Якобсону (рис. 3), участвуют адресант и адресат, от первого ко второму направляется сообщение, которое реализовано с помощью кода. Контекст в модели Якобсона связан с содержанием сообщения, с информацией, им передаваемой.

 

Рис. 1.4. Модель Р.О. Якобсона

Сообщение может быть понято адресатом только в том случае, если последний осуществляет выбор из множества альтернатив, то есть и у адресанта и у адресата имеется общая модель мира (контекст), в рамках которой и осуществляется этот выбор.

Рис. 2.3. Голосовой механизм человека по Фланагану [2].

Рис. 2.4. И его схематическое представление.

Рис. 2.5. Спектральное представление речевой волны.

Речевая волна это медленно изменяющийся во времени сигнал в том смысле, что его характеристики почти неизменны на временном отрезке от 5 до 100 мсек. Тем не менее, на более длительных интервалах времени речевой сигнал меняется, что соответствует произнесению различных звуков.

Рис. 2.8. Еще один способ представления речи в виде формантных траекторий. Например, для последовательности «Why do I owe you a letter». Особенностью речевой волны является несовпадение признаков фонем для разных дикторов (см. Рис. 2.9).

 

Структура приемника информации – машины

Традиционно в лингвистике рассматриваются следующие уровни представления речевой информации [10]: (1) уровень субфонемных элементов; (2) фонем; (3)… Системы распознавания речи можно подразделить на четыре основных категории:1.… Имеется ряд дополнительных критериев классификации систем распознавания речи:

Автоматическое распознавание речи

Базовый алгоритм покомандного распознавания

 

 

Системы покомандного распознавания

1. Подход, основанный на распознавании образов. 2. Акустико-фонетический (структурный) подход. 3. Искусственно-интеллектуальный подход.

Системы распознавания слитной речи

1. Подход, основанный на распознавании образов. 2. Искусственно-интеллектуальный (структурный) подход. 3. Подход, основанный на использовании нейронных сетей.

Сравнение эффективности распознавания человеком и искусственными системами.

  Задача Процент ошибок человека Процент ошибок ИСРР База "TI46", SNR ~60 дБ Звуки,…   Сравнение эффективности распознавания человеком и искусственными системами в условиях шума. Точно также влияет наличие…

Промышленные системы распознавания речи

«Исследование проблемы использования систем распознавания речи для разведывательных целей (http://www.agentura.ru/equipment/radio/sys/) не привело к… Все системы распознавания речи, разработанные к настоящему времени, можно… В настоящее время под системой распознавания речи понимается [121] программно-аппаратный комплекс, решающий одну из…

Стандартная архитектура системы распознавания речи

 

 

 

Рис. 2.24. Архитектура системы распознавания речи фирмы Speereo Software United Kingdom Ltd.

• До 150000 слов английского языка.

• В темпе с процессом.

• Статистические языковые модели.

• 600 командных фраз.

• В любую среду: MS Windows 95, 98, Millenium, NT4.0, 2000, XP.

• Спец. словарь: радиология и модели языков.

• PCMCIA для мобильных работ.

• изолированно произносимые команды;

• без подстройки под диктора;

• 99,9% в офисном помещении;

• 97% в автомобиле, идущем со скоростью 120 км/час;

• подстраивается к языковой модели;

• управление оборудованием и меню;

• английский UK.

 

IBM Voice Type Dictation

• 32000 слов + 2000 слов личного словаря (английский язык).

• 70 – 100 слов/мин.

• Статистические языковые модели.

• Стандартные фразы.

• В любую среду: OS/2, Windows, DOS.

• изолированно произносимые команды;

• с подстройкой под диктора;

• плата ввода;

• синтез введенного текста;

• 95%;

• подстраивается к языковой модели;

• речь – текст в звуковом окне – текст в речевом редакторе;

• управление оборудованием и меню;

• 45 – 60 минут – обучение системы; 150 предложений;

• английский UK и USA, французский, немецкий, итальянский, испанский, арабские языки.

 

Диалог человека и машины

Существует два типа таких систем:

1. Системы первого типа ведут человека, следуя четкому порядку заполнения определенных форм. Примером такой системы может стать заказ билетов. В каждом из состояний система настраивается на распознавание заранее приготовленных атрибутов, допуская варианты возврата к предыдущему шагу или выходу из системы

2. В системах второго типа человеку отводится роль собеседника, который может сам проявлять интерес к разным аспектам информации, задавая любые вопросы.

 

 

Рис. 2.25. Общая блок-схема ориентированной на задачу системы речевого диалога

 

Классификация систем устного диалога по направлению потока информации

 

Тип системы Поток информации Примеры
Объяснение Система ® Пользователь Прокладка маршрута, обучение
Заполнение форм Пользователь ® Система Покупки по телефону, перенаправление абонента
Получение информации Пользователь « Система Резервирование гостиницы, поиск литературы