Исправление ошибок и снятие неоднозначности - раздел Лингвистика, В.П. Захаров Корпусная лингвистика Однако Автоматический Анализ Естественного Языка Небезошибочен И Многозначен...
Однако автоматический анализ естественного языка небезошибочен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автоматические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автоматическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.
Филологический факультет... Кафедра математической лингвистики... В П Захаров Корпусная лингвистика...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Исправление ошибок и снятие неоднозначности
Что будем делать с полученным материалом:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Захаров В.П.
З-38Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с.
Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – новог
Репрезентативность
Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количест
Разметка
Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингв
Технология создания корпусов
Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов.
1. Определение перечня источников.
2. Оцифровка текстов (преобразование в компьютерну
Автоматическая разметка
Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место зани
Форматы данных и стандартизация
Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицирован
Корпусные менеджеры
Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необ
Пользователи и способы использования корпусов
Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую о
Типы корпусов
Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного период
Терминология
Терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в
Корпусы в сети Интернет
Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Lingui
Новости и инфо для студентов