Промышленные системы распознавания речи

Исследования по распознаванию речи проводятся уже на протяжении 50 лет. В ряде сообщений прессы предполагалось, что такие исследования привели к созданию коммерческих систем распознавания речи. Общая уверенность в наличии таких средств поддерживается появлением новых дешевых программных продуктов, позволяющих вводить голосовую информацию и команды в компьютер без использования клавиатуры. Такие системы распознавания могут быть использованы в банках для обслуживания клиентов банка, в сервисных центрах, службах поддержки компании, торговых центрах, справочно-информационных службах, системах заказа (билетов), бронирования, государственных и муниципальных службах, центрах обслуживания вызовов.

«Исследование проблемы использования систем распознавания речи для разведывательных целей (http://www.agentura.ru/equipment/radio/sys/) не привело к обнаружению фактов, указывающих на использование где-либо сейчас систем распознавания голосовой информации по ключевому слову или наличия вообще систем с достаточной степенью надежности распознавания речи для указанных целей. Это означает, что проблема распознавания речи остается далекой от решения».

Все системы распознавания речи, разработанные к настоящему времени, можно разбить на два класса: (1) одноуровневые системы, распознающие речевые события с помощью так или иначе модифицированных правил Байеса (в том числе и реализованных на нейронных сетях); и (2) системы для структурной обработки, в том числе, использующие эмпирические лингвистические правила.

В настоящее время под системой распознавания речи понимается [121] программно-аппаратный комплекс, решающий одну из ниже перечисленных задач.

· Распознавание изолированных устно произносимых команд ограниченного словаря. Такие системы используются для управления оборудованием, или для ввода данных в заданном формате. В этом случае слова произносятся с различимыми паузами между ними.

· Распознавание слитной речи. Если в первом случае оператор – пользователь системы – должен помнить словарь системы и ограничения, накладываемые на стиль произнесения, то в случае использования системы распознавания слитной речи словарь предполагается достаточно большим, что позволяет пользователю не заботиться о выборе нужного слова. Пользователь, также, не обязан отделять при произнесении слова: он может говорить естественным образом. Такие системы еще называются системами для диктовки или системами типа «речь-текст». Это, например, системы для диктовки текстов «Dragon Naturally Speaking», фирмы Dragon Inc. [110], и «Via Voice», фирмы IBM [96]. Их словари могут включать несколько десятков тысяч слов.

· Понимание речи. В этом случае пользователь системы может допускать ошибки при произнесении, но контекст дискурса позволяет учитывать семантику сообщения, что и является главной задачей системы. Таких систем, кроме человека, пока не существует в природе.

Все перечисленные типы систем распознавания речи могут иметь дополнительные различия. Их несколько.

· Система распознавания может обучаться на индивидуальные особенности речи конкретного диктора-пользователя, может быть рассчитана на произвольного пользователя, а может дообучаться на конкретного диктора.

· Система может быть рассчитана на строгий стиль произнесения, а может воспринимать одинаково хорошо разные стили произнесения: тихо, громко, быстро, медленно, в условиях физической нагрузки, шепотом.

· Система может быть предназначена для работы в хороших акустических условиях, а может работать в шумах, и даже в условиях интерферирующих воздействий других дикторов.

Все системы распознавания речи имеют похожие архитектуры, но в зависимости от конкретного типа и решаемой задачи, имеют преимущественное развитие своей архитектуры в одном или нескольких направлениях. Обычно, системы распознавания речи имеют в своем составе следующие блоки и устройства: микрофон, блок преобразования акустического сигнала в цифровую форму, блок шумоочистки, блок формирования первичного описания, блок акустико-фонетического анализа, блоки обработки верхних уровней: морфологического, лексического, синтаксического, и т.д.

Акустический речевой сигнал, после его ввода в систему, оцифровывается, очищается от шумов, нормализуется по амплитуде и освобождается от коррелированной информации. Затем начинается сравнение его фрагментов со сформированными на этапе обучения эталонами разных уровней. Причем, сформированные на самом нижнем (акустико-фонетическом) уровне гипотезы – цепочки фонем (или любых других фонемоподобных элементов), на следующих уровнях сравниваются с эталонами поуровневых словарей. Например, с эталонами словаря корневых морфем – на нижнем уровне, на следующем уровне – с элементами словаря слов, и т.д. Влияние более высоких уровней позволяет прекратить рост числа вероятных гипотез. Одновременно, сравнение со словарем является и этапом сегментации, поскольку распознавание конкретного акустического фрагмента позволяет вычленить его из потока речи.

Решение конкретной задачи, например, задачи распознавания в шумах, приводит к специфическому увеличению блока шумоочистки, например, за счет введения дополнительного канала от второго микрофона, направленного противоположно первому, и вычитания второго сигнала из первого.

В случае решения задачи распознавания слов ограниченного словаря, в системе, кроме акустико-фонетического уровня, достаточно иметь еще только один уровень – лексический, содержащий эталоны слов. В случае решения задачи распознавания слов словаря большого объема, выгодно иметь промежуточные уровни представления информации, чтобы, за счет кодирования информации высоких уровней словами словарей низких уровней, сократить общие объемы представления информации. Наконец, в системе понимания речи необходимо иметь уровни представления семантики, и, возможно, прагматики.

При подстройке под диктора формируется один комплект эталонов, в случае дикторонезависимой системы – несколько комплектов: по одному на каждую группу дикторов, имеющих похожие особенности голоса.

То же при необходимости учета особенностей канала ввода информации (для телефонного и радиоканалов, в отличие от фиксированного микрофона гарнитуры).

В случае решения простых задач распознавания, например, команд ограниченного словаря, используются чаще всего одноуровневые статистические подходы. При решении более сложных задач, например, распознавания ключевых слов в потоке слитной речи, требуется привлечение в рамках структурного подхода лингвистической информации всех уровней, от морфологического до синтаксического. А также экстралингвистической информации – семантической и прагматической.

Таким образом, сложность реализации систем распознавания речи заключается в необходимости интеграции в единое целое большого объема информации, имеющей различную внутреннюю структуру [121] и требующей для ее обработки различных алгоритмов. Кроме того, частные решения задачи распознавания речи позволяют использовать речевую технологию в некоторых приложениях, но эти решения не масштабируются и, тем более, далеки от закрытия потребности использования в системах человеко-машинного общения. Использование практически всех существующих решений задачи распознавания речи натыкается на психологический барьер, заключающийся в том, что от систем распознавания речи человек ожидает тех же возможностей в общении, что и в общении с человеком. Решение последней задачи предполагает воссоздание, по возможности, всей системы обработки и представления информации, каковая имеется у человека. Это значит, что помимо интеграции лингвистических и экстралингвистических источников знаний различных уровней, в систему придется интегрировать подсистемы обработки информации других модальностей, в первую очередь - зрительной. Эффективная интеграция большого объема разнородной информации становится возможной в случае решения трех проблем. Во-первых, необходимо использовать одинаковые алгоритмы обработки информации, имеющей различную структуру. Во-вторых, желательно реализовать эти алгоритмы с наименьшими затратами, то есть с использованием специализированной (нацеленной именно на эти алгоритмы) аппаратуры, вместо универсальных процессорных средств. И в-третьих – необходимо реализовать ассоциативный способ обращения к информации.