Основная проблема обработки естественного языка

Основная проблема обработки естественного языка. Основной проблемой NLP является языковая неоднозначность.

Существуют разные виды неоднозначности Синтаксическая структурная неоднозначность во фразе Time flies like an arrow для ЭВМ неясно, идет ли речь о времени, которое летит, или о насекомых, т.е. является ли слово flies глаголом или существительным.

Смысловая неоднозначность во фразе The man went to the bank to get some money and jumped in слово bank может означать как банк, так и берег.

Падежная неоднозначность предлог in в предложениях He ran the mile in four minutesHe ran the mile in the Olympics обозначает либо время, либо место, т.е. представлены совершенно различные отношения. Референциальная неоднозначность для системы, не обладающей знаниями о реальном мире, будет затруднительно определить, с каким словом - table или cake - соотносится местоимение it во фразе I took the cake from the table and ate it. Литерация Literalness в диалоге Can you open the door I feel cold ни просьба, ни ответ выражены нестандартным способом.

В других обстоятельствах на вопрос может быть получен прямой ответ yesno, но в данном случае в вопросе имплицитно выражена просьба открыть дверь. Центральная проблема как для общей, так и для прикладной NLP - разрешение такого рода неоднозначностей - решается с помощью перевода внешнего представления на ЕЯ в некую внутреннюю структуру. Для общей NLP такое превращение требует набора знаний о реальном мире. Так, для анализа фразы Jack took the bread from the supermarket shelf, paid for it, and left и для корректного ответа на такие вопросы, как What did Jack pay for, What did Jack leave и Did Jack have the bread with him when he left необходимы знания о супермаркетах, процессах покупки и продажи и некоторые другие.

Прикладные системы NLP имеют преимущество перед общими, т.к. работают в узких предметных областях. К примеру, системе, используемой продавцами в магазинах по продаже компьютеров, не нужно раздумывать над неоднозначностью слова terminals в вопросе How many terminals are there in the order.

Тем не менее, создание систем, имеющих возможность общения на ЕЯ в широких областях, возможно, хотя пока результаты далеки от удовлетворительных. Распознавание речи По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи. Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов процедур для облегчения понимания.

Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные.

Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.

Для успешного распознавания речи следует решить следующие задачи 1 обработку словаря фонемный состав, 2 обработку синтаксиса, 3 сокращение речи включая возможное использование жестких сценариев, 4 выбор диктора включая возраст, пол, родной язык и диалект, тренировку дикторов, 5 выбор особенного вида микрофона принимая во внимание направленность и местоположение микрофона, 6 условия работы системы и получения результата с указанием ошибок. Существующие сегодня системы распознавания речи основываются на сборе всей доступной порой даже избыточной информации, необходимой для распознавания слов. Исследователи считают, что таким образом задача распознавания образца речи, основанная на качестве сигнала, подверженного изменениям, будет достаточной для распознавани, но тем не менее в настоящее время даже при распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, что является желаемым результатом.