Системы распознавания слитной речи

Имеется три основных подхода к распознаванию слитной речи.

1. Подход, основанный на распознавании образов.

2. Искусственно-интеллектуальный (структурный) подход.

3. Подход, основанный на использовании нейронных сетей.

Подход, основанный на распознавании образов. Так же как и в покомандном распознавании, в случае распознавания слитной речи используется подход, в котором формируются эталоны, с которыми потом сравнивается входная речевая информация. Только, в отличие от первого случая, эти эталоны более крупных речевых единиц: коротких предложений, частей предложений, которые в речи сегментируются как синтагмы – от паузы до паузы. Эталоны формируются в процессе обучения напрямую, или строятся из комбинаций эталонов более низких уровней.

Рис. 2.23. Скрытая Марковская модель фонемы

Рис. 2.24. Составление эталонных сигналов слов из фонем в соответствие с моделью произношения.

Рис. 2.25. Вверху - преобразованный граф с предыдущего рисунка. Внизу - СММ с произвольным порядком следования моделей слов в предложении. Справа – траектории прохода по различным вершинам СММ при отображении на модель входного предложения.

Подход на основе искусственного интеллекта (структурный) подход.Идея искусственно-интеллектуального подхода заключается во включении в процесс принятия решения любой доступной информации - знаний всех уровней: акустических, лексических, синтаксических, семантических.

Акустические знания представлены в виде акустических признаков. Лексические – в виде фонетических описаний слов в лексиконе. Синтаксические знания представлены в виде допустимых (с точки зрения грамматики) комбинаций слов – предложений, фраз. Семантическая информация представлена в виде смысловой сочетаемости слов предметной области.

Рис. 2.20. «Снизу-вверх» подход интеграции знаний для распознавания речи.

Рис. 2.21. «Сверху-вниз» подход к интеграции знаний для распознавания речи.

Рис. 2.22. Подход, основанный на концепции классной доски для интеграции знаний для распознавания речи.

Рассмотрим один из источников знаний (синтаксического уровня), реадизованный на основе многослойного персептрона. Это так называемая модель языка. На вход персептрона поступают n-граммы (в данном случае – тройки) распознанных слов, на выходе предсказывается следующее слово. Таким образом, уменьшается вероятность появления неверной гипотезы распознавания следующего слова.

Рис. 2.23. Многослойный персептрон для предсказания следующего слова по трем ранее распознанным.

Классы ЕЯ систем	Уровни представления информации (функции)
Акустико-фонети-ческий	Морфоло-гический	Лекси-ческий	Синтакси-ческий	Модель мира	Прагма-тический	Сравнение (классификация)
Системы распознавания речи
Системы распозна-вания слитной речи	+	+	+	+	+	-	+