рефераты конспекты курсовые дипломные лекции шпоры

Раздел Информатика
/
Вид работы: Лекции
/
Системы покомандного распознавания

Реферат Курсовая Конспект

Выберите учебное заведение

Системы покомандного распознавания

Системы покомандного распознавания - Лекция, раздел Информатика, Новые информационные технологии Имеется Три Основных Подхода К Покомандному Распознаванию Речи. 1. П...

Имеется три основных подхода к покомандному распознаванию речи.

1. Подход, основанный на распознавании образов.

2. Акустико-фонетический (структурный) подход.

3. Искусственно-интеллектуальный подход.

Подход, основанный на распознавании образов.Подход, основанный на распознавании образов используется по следующим соображениям.

1. Простота. Он легко интерпретируется. Имеется хорошо развитый математический аппарат для всех процедур подхода. Он широко применяется.

2. Устойчивость и инвариантность к различным словарям, пользователям, выбору признаков, использования алгоритмов сравнения образов и принятия решения, а также групп дикторов, используемого оборудования, канала. Не зависит от выбора речевой единицы: от фонемы до фразы.

3. Дает хорошие результаты в широком круге задач.

Недостатки подхода.

1. Чувствительность к объему обучающей выборки.

2. Подверженность качества распознавания влиянию шума.

3. Неиспользование лингвистической информации.

4. Большая вычислительная емкость.

В подходе, основанном на распознавании образов, речевые образы используются целиком без сегментации на фрагменты, соответствующие фонемам, и без вычисления признаков, как акустико-фонетическом подходе. В этом подходе есть два этапа: обучение (речевым образам) и распознавание путем сравнения с эталонами. На этапе обучения в обучающую выборку должно войти достаточное число произнесений речевой единицы, используемой в распознавании. И эти речевые единицы должны отличаться друг от друга. Процедура обучения предваряется процедурой классификации образов, во время которой выясняется какие акустические признаки распознаваемых речевых единиц релевантны этим единицам и устойчиво повторяются от произнесения к произнесению. На этапе распознавания производится сравнение полученных в процессе обучения эталонов с входной реализацией с вычислением наиболее близких к входной реализации эталонов.

Рис. 2. 6. Блок-схема распознавателя речи на основе подхода, основанного на распознавании образов.

Процедура, основанная на указанном подходе, включает четыре основных шага.

Измерение первичных признаков речевого сигнала. Обычно вычисляются спектральные признаки либо с помощью гребенки фильтров, либо с помощью линейного предсказывающего кодирования, либо с помощью дискретного преобразования Фурье.
Формирование эталонов (обучение). Эталоны формируются с помощью некоторых усредняющих процедур. Это может быть модель, характеризующая статистику признаков эталона.
Классификация, во время которой входной образ сравнивается с эталонами. Сравнение образов, которые есть последовательность векторов признаков, осуществляется с использованием как локального расстояния между двумя синхронными векторами, так и глобальной выравнивающей во времени процедуры (чаще всего, это процедура динамического программирования), которая компенсирует различные скорости произнесения входного и эталонного образов.
Принятие решения.

Различные методы, используемые в данном подходе, зависят от системы первичных признаков, от модели, на которой строятся эталоны, от методов сравнения образов.

Акустико-фонетический подход. Акустико-фонетический подход базируется на теории акустической фонетики и постулирует, что существуют конечное число отчетливо различимых фонетических единиц в речи, и что фонетические единицы характеризуются набором признаков, представленных в речевом сигнале, или в его спектре. И хотя, упомянутые признаки сильно варьируют в зависимости от диктора и положения фонетической единицы в конкретном окружении (так называемая коартикуляция), предполагается, что эти признаки могут извлекаться по некоторым правилам, формируемым в процессе обучения, что позволяет извлекать признаки и использовать это в приложениях. Наиболее принятые техники первичного описания речевого сигнала в данном подходе – техники, основанные на спектральном описании речевой волны: использование гребенки фильтров и линейное предсказывающее кодирование.

Первый шаг в акустико-фонетическом подходе – сегментация – разделение речевой волны на отдельные фрагменты, которым затем присваиваются фонетические метки в зависимости от присущих этим фрагментам признаков. Среди первичных признаков описания речевого сигнала фигурируют: назальность, фрикативность, локализация формант, вокализация, а также отношение высокочастотной и низкочастотной компонент речевого сигнала. Эти признаки вычисляются параллельно и участвуют в логических правилах принятия решения для вычисления фонетичекой метки текущего речевого сегмента.

Далее, последовательности фонетических меток интерпретируются в терминах слов или последовательностей слов, которые, в зависимости от задачи, должны удовлетворять некоторым синтаксическим, семантическим и прагматическим ограничениям. Как для последовательности слов “all about” в виде строки фонетических значков «SIL-AO-L-AX-B-AW-T».

Рис.2.7. Фонетические гипотезы полученные при использовании акустико-фонетического подхода для распознавания строки слов «all about».

Рис. 2.8. Блок-диаграмма акустико-фонетической системы.

Сегментация речевой волны осуществляется на основе алгоритмов, учитывающих резкое изменение параметров речевой волны во времени. Также привлекаются различные эмпирики, которые позволяют упростить решение задачи сегментации.

Разметка также осуществляется на основе системы правил, позволяющих разделить акустические сегменты друг от друга. Это можно показать на примере дерева классификации звуков (см. Рис. 2.9).

Рис. 2.9. Бинарное дерево классификации речевых звуков.

Рис. 2.10. Системы распознавания речи на основе распознавания образов и акустико-фонетического подходов.

Проблемы подхода сводятся к следующим.

Подход требует хорошего знания акустических свойств фонетических единиц.
Для большинства решений выбор фонетических признаков основывается на интуиции автора.
Конструирование классификаторов звуков также обычно не оптимально.
Не существует автоматических процедур для настройки параметров.

Подход, основанный на применении искусственных нейронных сетей. Искусственные нейронные сети эффективно используются для решения тех или иных задач в области распознавания речи.

Рис. 2.11. Многослойный персептрон для классификации гласных, основанной на формантных измерениях.

Рис. 2.12. Нейронная сеть с задержками.

Первичная обработка.Как было сказано ранее, система распознавания речи, в ее наиболее простом представлении, включает в себя алгоритмы из широкого спектра предметных областей, в том числе, статистического распознавания образов, теории коммуникаций, обработки сигналов, комбинаторной математики, а также лингвистики. Они в той или иной степени включены в разные подходы к распознаванию речи. Однако все без исключения системы распознавания речи включают в свой состав уровень первичной обработки речевого сигнала, который преобразует речевую волну в некоторый вид параметрического представления (имеющий значительно более низкую скорость передачи сигнала, чем речевая волна), используемый для последующей обработки. Рассмотрим наиболее распространенные в области обработки сигналов технологии.

Наиболее часто используемый вид параметризации – вычисление огибающей мгновенного спектра. Методы анализа спектра являются ключевыми в первичной обработке речевой волны в системах распознавания речи. Рассмотрим два наиболее известных метода оценки спектра речевого сигнала: с использованием гребенки фильтров, и на основе линейного предсказывающего кодирования. Одновременно рассмотрим так называемый метод векторного квантования, который позволяет свести континуум спектральных представлений к небольшому числу характерных их представителей, что позволяет еще более снизить скорость передачи. Далее мы рассмотрим так называемую антропоморфную модель обработки речевой волны, которая оказывается более устойчивой к шумам и реверберации, чем обработка с помощью гребенки фильтров и линейного предсказывающего кодирования.

Как было показано выше, независимо от подхода, используемого для распознавания речи, первичная обработка речевой волны, с целью формирования боле компактного описания входного события, осуществляется во всех подходах. Рассмотри гребенку фильтров (рис. 2.13).

Рис. 2.13. Модель анализа на основе гребенки фильтров.

Рис. 2.14. Типичный вид речевой волны и ее спектра в модели анализа на основе гребенки фильтров.

Полоса сигнала зависит от наибольшей скорости изменения гармоник речевого сигнала в узких полосах и обычно не превышает 20-30 Гц. Поэтому два последних блока на рис. 3.3 это блок уменьшения частоты квантования, в котором отфильтрованный низкочастотный сигнал переквантуется при частоте 40-60 Гц (для экономичного представления), а динамический диапазон сигнала сжимается с использованием схемы амплитудной компрессии (логарифмическое кодирование, -кодирование, и т.д.).

Пусть есть Q=16 канальнаф гребенка для широкополосного речевого сигнала, где наибольшая частота 8 кГц. Предположим мы имеем частоту квантования . Информационная скорость передачи речевого сигнала – 240 кбит/сек (20 к отсчетов в секунду по 12 бит на отсчет). На выходе анализатора, если частота квантования – 50 Гц и на выходе имеется 7 битовый логарифмический компрессор, получается информационная скорость передачи 16-ти каналов по 50 отсчетов в секунду на канал по 7 бит на отсчет, или 5600 бит/сек. То есть мы имеем сжатие в 40 раз по скорости передачи.

Сегментация речевого сигнала.Очень важно, в связи со сравнением двух образов, научиться сегментировать речевые фрагменты на отдельные слова. Другими словами, необходимо отделять в непрерывном речевом потоке речевые фрагменты от неречевых. Можно показать важность сегментирования речевых фрагментов в потоке на точность работы системы распознавания.

На точность сегментации влияет множество различных факторов. Так при открытии рта возникает непроизвольный звук (клик), который определяется системой сегментации как начало слова (см. рис.2.15). На точность влияет также шум дыхания. Условия, в которых произносится и распознается речь, сильно влияют на точность распознавания. Наиболее сильно влияет на точность распознавания шум (хлопанье двери, звуки авто, шум толпы, звуки сигналов авто), присутствующий на входе микрофона вместе с речевым сигналом, а также, интерферирующие речевые сигналы (от телевизора, радио, других разговоров). Наконец, на точность распознавания влияет оборудования, которое было использовано для восприятия и передачи речевой волны.

Много методов было использовано для детектирования границ слова. Они были расклассифицированы на три подхода, в соответствие с тем, как они взаимодействуют с парадигмой сравнения входного и эталонного образов. Это явно выраженный подход, скрытый подход, и комбинация обоих.

Явно выраженный подход утверждает, что процесс сегментации не должен быть связан с другими элементами алгоритма распознавания. Алгоритм сегментации вычисляет такую же разницу между входным и эталонными образами, что и при распознавании (см. рис. 4.3). Эталоны для этого подхода имеют вид «фон-речь-фон». Для сигналов, искаженных стационарным низкоуровневым шумом подход дает хорошие результаты. В присутствие нестационарных высокоамплитудных шумов подход работает плохо.

Рис. 2.15. Блок-схема подхода к детектированию конца слова, основанного на явно выраженном подходе.

Скрытый подход к детектированию границ работает параллельно с сравнением образов и принятием решения (см. рис. 2.16). Этот подход предполагает вычисление всех возможных границ слов с последующим выбором наилучшего кандидата. Этот подход вычислительно более емок, но и дает лучшие результаты.

Рис. 2.16. Блок-схема скрытого подхода к сегментации.

Результаты сегментации могут быть значительно улучшены, если на вход скрытого подхода подается некоторое количество заранее принятых решений. Например с использованием алгоритма, детектирующего речевой сигнал. Адаптивный эквалайзер оценивает уровень фонового шума, а результаты используются для выделения энергетических контуров, которые используются для определения граничных точек речь/не речь.

Рис. 2.17. Блок-схема типичного алгоритма определения речевой активности.

Выравнивание и нормализация.Имея локальную функцию расстояния между двумя спектральными отсчетами, можно сравнивать речевые фрагменты как последовательности таких отсчетов. Такое сравнение позволяет принимать решение о степени подобия речевых фрагментов. Однако появляется известная трудность, которая заключается в неравной длине подобных отрезков речевой волны: одинаковые звуки могут произноситься в разное время с разной длительностью. Для устранения этого несоответствия вводится специальная процедура выравнивания.

Пусть мы имеем два речевых образа и , и соответствующие им две последовательности векторов и , где и - векторы признаков. - расстояния между соответствующими векторами обоих последовательностей (условно будем их обозначать как , где и расстояния между соответствующими векторами обоих последовательностей.

Наиболее простое решение проблемы – линейная нормализация: две последовательности выравниваются по длине пропорционально (см. рис. 2.18). В этом случае:

где и удовлетворяют условию:

Рис. 2.18. Линейное выравнивание двух последовательной разной длины.

В более общем случае выравнивание и нормализация включает в себя две искажающие функциии , которые приводят индексы обоих последовательностей и к общей нормальной временной оси. И глобальная мера подобия может быть определена на основе пары выравнивающих функций как накопленное расстояние по всей длине последовательности (см. рис. 2.19):

Рис. 2.19. Пример временного выравнивания двух последовательностей векторов признаков по отношению к общей оси времени.

Такое рассогласование выравнивается выявлением минимума:

где должна удовлетворять множеству требований. Интуитивно это выражение полностью выполняется в случае, когда и являются реализациями одного и того же слова.

Классы ЕЯ систем	Уровни представления информации (функции)
Акустико-фонети-ческий	Морфоло-гический	Лекси-ческий	Синтакси-ческий	Модель мира	Прагма-тический	Сравнение (классификация)
Системы распознавания речи
Системы покомандного распозна-вания	+	-	+	-	-	-	+

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Новые информационные технологии

Лекция Основные классы естественно языковых систем Системы... Новые информационные технологии...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Системы покомандного распознавания

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Структура коммуникационного акта.
В конце 40-х гг. американский математик Клод Шеннон [2] ввёл модель коммуникации (рис. 2.4). Рис. 2.4. Информационно-кодо

Правило Байеса.
Пусть имеется группа событий (классов, к которым относятся входные сообщения), обладающая следующими свойствами: 1) все события по

Структура приемника информации – машины
Для решения задачи коммуникации со стороны машины должны быть реализованы те же функции, что и со стороны человека – реципиента речевой посылки. Следовательно, и архитектура ее алгоритмов должна бы

Системы распознавания слитной речи
Имеется три основных подхода к распознаванию слитной речи. 1. Подход, основанный на распознавании образов. 2. Искусственно-интеллектуальный (структурный) подход. 3. Подхо

Сравнение эффективности распознавания человеком и искусственными системами.
Из таблицы ниже хорошо видно уменьшение точности распознавания речи машиной по сравнению с человеком, у которого в любой акт распознавания включены источники знаний всех уровней.

Промышленные системы распознавания речи
Исследования по распознаванию речи проводятся уже на протяжении 50 лет. В ряде сообщений прессы предполагалось, что такие исследования привели к созданию коммерческих систем распознавания речи. Общ