рефераты конспекты курсовые дипломные лекции шпоры

Раздел Программирование
/
Вид работы: Рефераты
/
АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ

Реферат Курсовая Конспект

Выберите учебное заведение

АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ

Работа сделанна в 2004 году

АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ - Реферат, раздел Программирование, - 2004 год - Системы распознавания речи Анализ Основных Проблем. На Первый Взгляд Все Очень Просто Если Печатный Текс...

АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ. На первый взгляд все очень просто если печатный текст распознается, то и речь тоже можно распознать, ведь компьютеру все равно, что обрабатывать звук или рисунок.

Казалось бы, нужно только разделить полученное изображение или звуковой поток на повторяющиеся стандартные образы, сопоставить их с используемыми нами знаками и дать им определенные числовые значения, по которым их будет узнавать машина. Все бы так и было, если бы печатный текст и речь были действительно аналогичными методами передачи информации, но в действительности они очень непохожи, и дело здесь вовсе не в типе носителя информации.

Человеческую речь скорее можно сравнить с рукописным текстом, который, как и человеческая речь, очень зависит от индивидуальных характеристик каждого человека. Почерк и тембр голоса уникальны и практически неповторимы, и эти непредсказуемые в каждом случае параметры серьезно затрудняют вычленение и систематизацию знаковых образов.

Несмотря на перечисленные трудности, системы распознавания речи совершенствуются довольно быстро и постепенно начинают конкурировать с клавиатурным вводом. При этом необходимо подчеркнуть, что пока компьютер еще весьма далек от человека, улавливающего интонации и настроение собеседника. Обычно человек, впервые услышав о технологии распознавании речи, полагает, что для надиктовывания текста системе, распознающей речь, не требуется особых навыков, однако это не так. В отличие от клавиатурного, речевой ввод помимо основной информации несет и данные о поле говорящего, о его возрасте, состоянии здоровья, настроении, отношении к передаваемой информации, а также много других дополнительных сведений.

Для распознавания речи абсолютное большинство этих данных - не помощь, а помеха, то есть как для разговора по телефону, так и для надиктовывания текста системе распознавания от человека требуется так или иначе приспосабливать речь к этим устройствам. Сегодня нам кажется, что для того, чтобы эффективно пользоваться телефоном, не нужны никакие навыки.

Это связано с тем, что обучение происходит исподволь с раннего возраста дети наблюдают, как взрослые разговаривают по телефону, и незаметно для себя приобретают определенные умения. В подтверждение этому приведем небольшую цитату из Почтово-телеграфного журнала за 1902 год Человек, редко прибегающий к посредству телефона, будет говорить или слишком громко, или слишком тихо, и лишь после некоторого навыка можно научиться приспособить свою речь таким образом, чтобы она внятно передавалась телефоном.

При этом, однако, не безразлично, на каком языке происходит разговор, так как некоторые языки к этому более пригодны, чем другие. Такое различие особенно ясно сказалось со времени открытия телефонного сообщения между Германией и Францией. Самым неудобным из европейских языков для телефонной передачи оказывается английский язык, изобилующий шипящими звуками и представляющий при телефонировании большие затруднения, так как их очень легко смешать с обычным мешающим шумом в аппаратах.

Итак, речевой ввод информации предъявляет следующие требования говорить следует не слишком громко и не слишком тихо. Лучше всего обычным спокойным голосом. Повышенные интонации несут много побочных данных, вследствие чего процент распознавания падает произносить слова нужно монотонно, но четко. Не должны проглатываться окончания, так как в отличие от человека компьютер пока не может следить за контекстом и додумывать окончания чем меньше посторонних шумов, тем лучше надо стараться поддерживать постоянное расстояние до микрофона в микрофон не должно попадать придыхание, поэтому микрофон нужно держать не прямо напротив рта, а приблизительно на сантиметр вправо и на сантиметр ниже. Плохое аппаратное обеспечение тоже является источником проблем для распознавания речи, поэтому качественный микрофон и хорошая звуковая плата со встроенным фильтром шумов могут значительно улучшить работу системы распознавания речи. Но когда все трудности решены, перед пользователем программы распознавания звучащей речи открываются совершенно новые возможности. Во-первых, скорость ввода любого текста увеличивается в несколько раз по сравнению с вводом с клавиатуры при этом затраты необходимых усилий уменьшаются, а обучение вообще не нужно, так как говорить мы все умеем.

Во-вторых, такая программа позволяет управлять другими приложениями и операционной системой в целом с помощью голосовых команд, что очень облегчает и ускоряет работу за компьютером.

Наша страна преподносит разработчикам систем распознавания русской речи еще один сюрприз диалекты и говоры необходимо также учитывать различия в произношении в разных регионах России.

Как правило, подобные проблемы решаются с помощью предварительной настройки. А технологии, разработанные специалистами фирмы VoiceLock, позволяют настраивать программу всего за несколько минут. Главная проблема, возникающая при разработке САРР системы автоматического распознавания речи, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях.

Человека это не смутит, а вот компьютер может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы. Однако более чем полувековая работа над различными САРР дала свои плоды.

Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени. Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий.

При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов1. Режим слитного произнесения более натурален и близок пользователю.

При этом предполагается, что система сама различит границы слов во фразе. Однако этот режим требует гораздо больше системных ресурсов и памяти, а точность распознавания ниже, чем в предыдущем режиме. Почему это так Причин несколько. Во-первых, при слитной речи произнесение слов менее аккуратно, чем в режиме PIN-кода, то есть когда каждое слово произносится отдельно. Во-вторых, скорость речи даже у одного человека разная. Он может задуматься, засомневаться, забыть слово. В разговорной речи часто встречаются слова-паразиты ну, а, вот. Кроме того, границы слов часто смазываются, произносятся нечетко, что затрудняет работу системы. Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д. На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря - важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется.

Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари.

Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд около 1 для словаря в 100 слов, 3 -для словаря в 600 слов и 10 для словаря в 8000 слов. 1 Многочастотный код 2 из 8 или DTMF Dual Tone Multiple Frequency в настоящее время является все более широко распространяющимся телефонным стандартом. Данный стандарт вытесняет устаревшие импульсные сигналы. Помимо набора номера данный метод сигнализации находит множество других применений, таких как передача данных с небольшой скоростью по обычному телефонному каналу.

Примером такого использования служит дистанционное управление домашним автоответчиком или иной техникой с другого телефона или использование дополнительных услуг в телефонной сети. Кодек DTMF состоит из кодера передатчика, который переводит нажатия клавиш на телефонной клавиатуре или цифровую информацию в двухтональные сигналы, а декодер, соответственно, определяет присутствие и информационное содержание двухтональной посылки во входящем сигнале. 4.1

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Системы распознавания речи

Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты к минимуму заставляет постоянно работать над… При современных масштабах распространения ПК работать с ними приходится не… Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди…

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: АНАЛИЗ ОСНОВНЫХ ПРОБЛЕМ

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

ИСТОРИЯ СОЗДАНИЯ И РАЗРАБОТКИ СИСТЕМ
ИСТОРИЯ СОЗДАНИЯ И РАЗРАБОТКИ СИСТЕМ. Соединенные Штаты Америки, конец 60-х годов XX века Три, сказал Валтер Кронкит Walter Cronkite, ведущий научно-популярной программы XXI век, во время демонстра

ОПИСАНИЕ СОВРЕМЕННОГО СОСТОЯНИЯ ВОПРОСА
ОПИСАНИЕ СОВРЕМЕННОГО СОСТОЯНИЯ ВОПРОСА. Как хорошо было раньше Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце пров

КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ
КАК ПРОИСХОДИТ РАСПОЗНАВАНИЕ РЕЧИ. Процесс распознавания речи может быть разделен на две основные фазы оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фр

МЕТОДЫ И МОДЕЛИ
МЕТОДЫ И МОДЕЛИ. Для успешного распознавания речи следует решить следующие задачи Ю обработку словаря фонемный состав, Ю обработку синтаксиса, Ю сокращение речи включая возможное использование жест

ПРОБЛЕМЫ СОЗДАНИЯ МНОГОУРОВНЕВОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ
ПРОБЛЕМЫ СОЗДАНИЯ МНОГОУРОВНЕВОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ. В современных компьютерных системах все больше внимания уделяют построению интерфейса естественным вводом-выводом информации распознаван

ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ
ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ. Возможности голосового управления открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компьютер управляет принтером, модемом, ф