рефераты конспекты курсовые дипломные лекции шпоры

Раздел Программирование
/
Вид работы: Рефераты
/
КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ

Реферат Курсовая Конспект

Выберите учебное заведение

КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ

Работа сделанна в 2004 году

КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ - Реферат, раздел Программирование, - 2004 год - Системы распознавания речи Как Происходит Распознавание Речи. Процесс Распознавания Речи Может Быть Разд...

КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ. Процесс распознавания речи может быть разделен на две основные фазы оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе использования различных моделей и алгоритмов Алгоритмы декодирования могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно достаточно 40-60 фонем, чтобы описать произношение всех слов. Наиболее точными с точки зрения распознавания являются модели, основанные на распознавании слов целиком.

Однако они могут использоваться лишь в системах со словарями небольшого объема Модели, основанные на фонемной структуре, являются гораздо более универсальными и в значительной мере решают проблему объема словаря.

В основу предлагаемого подхода, и это является его главной отличительной чертой, положено сложное иерархическое и многоярусное представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания. Ниже в самом общем виде описываются основные этапы процедуры формирования такого представления и способ его использования непосредственно в процессе распознавания.

Первоначально для речевого сигнала, который будет использоваться в процессе обучения распознающей системы, составляется детальная сегментная транскрипция. Сегменты аллофоны фонем описываются посредством двух основных классов стандартных фонетических признаков автономных и иерархических. Автономные признаки такие как назализация, напряженность, лабиализация и др. определяют многоярусный характер представления акустико-фонетического пространства они обладают относительной независимостью, поскольку их наличие или отсутствие никак не предопределяется и не ограничивается реализацией других признаков, и могут использоваться для описания фонетических единиц любого уровня иерархии.

Иерархический признак, напротив, характеризуется обязательной соотнесенностью с другими классификационными признаками. Так, например, только согласный звук может быть взрывным, и только взрывной, в свою очередь, может быть реализован с носовым взрывом.

В целом для подробного фонетического описания используется приблизительно 40 фонетических признаков, автономных и иерархических. Все аллофоны, затранскрибированные с помощью описанного выше набора признаков, далее используются в процессе обучения системы распознавания речи. Процесс сегментации и транскрибирования речевого сигнала может выполняться как вручную экспертом-фонетистом, так и в полу-автоматическом режиме особенно в случае использования больших объемов речевого материала, с последующей экспертной коррекцией.

Составляется словарь системы распознавания речи, при этом каждое слово получает транскрипционное представление. За основу принимается стандартное полностильное произнесение, определяемое как исходная транскрипция слова ИТС. В дальнейшем, в процессе распознавания, каждое слово будет соотноситься с имеющимися в словаре ИТС. Далее, в рамках разработки расширенного пространства слова, осуществляется генерация всех теоретически возможных вариантов реализации данного слова - т.н. аллофонных сетей.

При генерации аллофонных сетей используются фонетические правила модификации, которые позволяют для любой русской фонемы в любом контексте спрогнозировать все возможные модификационные сценарии. Данные модификационные правила формулировались на основе сведений, содержащихся в литературе например, 4, исследовательского опыта и лингвистических знаний экспертов, с поправкой на реальные произносительные статистики, полученные в процессе обработки имеющегося речевого материала.

Модификационные правила дополняются факторами влияния, наличие или отсутствие которых в конкретной речевой реализации определяет относительные вероятности типов и степеней модификационных изменений фонетической единицы, предписанной в ИТС. Подробнее о формулировании и применении модификационных правил см. в следующем разделе. Как уже говорилось выше, аллофонные сети, являясь необходимым элементом фонетического описания, сами по себе не способны эффективно моделировать произносительную вариативность в рамках задачи автоматического распознавания речи. Проблема решается посредством последующей иерархизации пространства произносительной вариативности слова за счет введения определенного количества обобщающих уровней описания.

Обобщение осуществляется лингвистами экспертами-фонетистами на основе наблюдений за звучащей речью. При использовании достаточно больших баз речевых данных возможно применение автоматической процедуры для обобщения аллофонных транскрипций.

Обобщения могут затрагивать как один, так и несколько уровней иерархии. Не только каждая элементарная единица фонема или один из ее аллофонов, но и практически любая обобщенная мета-единица исключая самый верхний уровень иерархии может в потенциале входить в любое число других мета-единиц более высоких уровней, так что мета-единицы имеют различный размер, в зависимости от количества элементарных исходных единиц, входящих в их состав, иили их обобщающей силы. При объединении фонетических единиц в мета-классы основным фактором является адекватность в отражении произносительной реальности, которая не всегда соответствует традиционным фонологическими принципам классификации фонетических единиц и признаков.

Так, например, среди выделенных нами мета-единиц есть не только традиционные широкие фонетические классы, такие как гласный, согласный, закрытый, мягкий и т.д но и некоторые нетрадиционные объединения, например, передний включает гласные переднего ряда, мягкие и переднеязычные согласные, губной лабиализованные гласные и губные согласные, полугласныйполусогласный и др. Кроме того, допустимыми являются мета-единицы, включающие аллофоны различных фонем и не сводимые к простой комбинации соответствующих фонем это означало бы, что все их аллофоны входят в данную мета-единицу, а это не всегда имеет место.

Аллофоны группируются также на основе контекстов их реализации, что позволяет учитывать различные типы систематической аллофонической вариативности, наблюдаемой в связной речи. В результате объединения детализованных аллофонных, промежуточных фонемных и аллофонных и обобщенных мета-фонемных транскрипционных представлений для каждого слова генерируется иерархическая многоярусная сеть ИМС, которая обеспечивает полноценный учет и эффективную организацию всех допустимых произносительных вариантов слова в различной степени подробности. Иерархическая многоярусная сеть ИМС, в которую организованы все единицы и мета-единицы, представляет собой односвязное многоярусное дерево.

На заданном уровне дерева каждая пара единиц или мета-единиц может быть либо независимой автономной, либо иерархически связанной с высшим уровнем иерархической.

Такое структурированное представление позволяет установить меру близости для любой заданной пары звуков. На каждом узле ИМС имеется иерархическая весовая функция ИВФ, описывающая относительную значимость добавления отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове.

Весовые функции первоначально отражают статистическую информацию о влиянии чисто фонетического уровня реализации звуков выводимую на основе фонетических модификационных правил и имеют поправки за счет общелингвистических факторов влияния уровня фонетического слова позиция, контекст и др уровня лексикона частотность слова, омонимия и т.п уровня произнесения темп, стиль. Такая структура признакового описания единиц и мета-единиц позволяет достаточно просто и стандартизовано определять меру сходства между собой различных вариантов аллофонной реализации слова с учетом многих лингвистических и экстралингвистических факторов.

В процессе обучения системы для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Для простых единиц такие шаблоны получаются стандартным способом например, с помощью СММ. Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы.

Также существует возможность создания дополнительных шаблонов непосредственно для мета-единиц. В процессе распознавания происходит сравнение входных данных и имеющихся ИТС. При этом с учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по исходной транскрипции сравниваемого слова ИТС. Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова. 4.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Системы распознавания речи

Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты к минимуму заставляет постоянно работать над… При современных масштабах распространения ПК работать с ними приходится не… Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди…

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

ИСТОРИЯ СОЗДАНИЯ И РАЗРАБОТКИ СИСТЕМ
ИСТОРИЯ СОЗДАНИЯ И РАЗРАБОТКИ СИСТЕМ. Соединенные Штаты Америки, конец 60-х годов XX века Три, сказал Валтер Кронкит Walter Cronkite, ведущий научно-популярной программы XXI век, во время демонстра

ОПИСАНИЕ СОВРЕМЕННОГО СОСТОЯНИЯ ВОПРОСА
ОПИСАНИЕ СОВРЕМЕННОГО СОСТОЯНИЯ ВОПРОСА. Как хорошо было раньше Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце пров

АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ
АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ. На первый взгляд все очень просто если печатный текст распознается, то и речь тоже можно распознать, ведь компьютеру все равно, что обрабатывать звук или рисунок. Ка

МЕТОДЫ И МОДЕЛИ
МЕТОДЫ И МОДЕЛИ. Для успешного распознавания речи следует решить следующие задачи Ю обработку словаря фонемный состав, Ю обработку синтаксиса, Ю сокращение речи включая возможное использование жест

ПРОБЛЕМЫ СОЗДАНИЯ МНОГОУРОВНЕВОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ
ПРОБЛЕМЫ СОЗДАНИЯ МНОГОУРОВНЕВОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ. В современных компьютерных системах все больше внимания уделяют построению интерфейса естественным вводом-выводом информации распознаван

ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ
ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ. Возможности голосового управления открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компьютер управляет принтером, модемом, ф