рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Искусственный интеллект

Искусственный интеллект - раздел Связь, Принцип Аналогии В Морфологии В Работе Белоногова Г. Г. И Зеленкова Ю. Г. Оп...

Принцип аналогии в морфологии В работе Белоногова Г. Г. и Зеленкова Ю. Г. описывается принцип построения алгоритма морфологического анализа текстов на основе принципа аналогии.Данный принцип используется в системах орфографического контроля русских текстов, системах автоматического индексирования документов и системах машинного перевода текстов с русского языка на английский и с английского языка на русский. Производительность программы на компьютере с процессором от 386 и выше составляет около 400 слов с. При автоматической обработке текста возникает проблема новых слов. Для синтаксического анализа и синтеза необходимо знать грамматические характеристики слов. Если слова в словаре нет, то морфологический анализ не может быть выполнен, а следовательно не могут быть определены грамматические характеристики слова. Для того, чтобы определить грамматические характеристики слов без словаря, Белоногов предложил принцип аналогии.

Он основан на том, что существует сильная корреляционная связь между грамматическими характеристиками слов и буквенным составом их концов.

Например организация, приватизация, концентрация имеют ж. р им. п. и ед. ч. работают, понимают, привлекают - это глаголы в 3-ем лице мн. ч. и т. д. Принцип аналогии проверялся на ряде индоевропейских языков русский, болгарский, латышский, испанский, английский и оказался эффективным. Сначала он применялся для определения грамматических характеристик слов, не включенных в машинный словарь.Затем возникла идея при проведении морфологического анализа отказаться от машинного словаря.

Если по текстам большого объема составить словарь словоформ и назначить каждой словоформе некоторые грамматические признаки, а затем преобразовать данный словарь в обратный словарь словоформ, то можно обнаружить, что многие участки словаря имеют одинаковые наборы признаков.Обратный словарь словоформ представляет собой список словоформ с такими характеристиками как признак длинны грамматического окончания, номер флективного класса типа словоизменения и числовой индекс, характеризующий такие признаки как глагольность , местоименность , сравнительная степень . Например масштаба 01 001 01 служба 01 056 01 возникшие 02 105 10 батальон 00 021 01 рассчитывая 00 152 10 Обратный словарь используется для автоматического морфологического анализа текстов, если составляющие их словоформы отождествлять со словоформами словаря и приписывать им грамматическую информацию, указанную в словаре.

Словоформам текста, которые не находятся в словаре, можно приписывать грамматическую информацию тех словоформ словаря, концы которых в максимальной степени совпадают с концами этих новых словоформ текста.

Объем обратного словаря можно сократить, если на всех его участках оставить по две словоформы начальную и конечную.Более того из этих двух словоформ можно оставить только одну, и если словоформа текста не совпадет ни с одной словоформой обратного словаря, то ей приписывается информация непосредственно предшествующей словоформы этого словаря.

Данный сокращенный словарь можно еще сократить, если исключить из него начальные буквы словоформ, не оказывающие влияние на результаты морфологического анализа. При этом у каждой пары рядом стоящих словоформ оставляются справа совпадающие конечные буквосочетания и еще по одной букве, которые не совпадают.Например аба 01 001 01 еба 01 044 01 неба 01 071 01 авшие 02 105 10 тальон 00 021 01 тывая 10 После выполнения всех операций объем словаря сокращается в 8 раз. На точность первоначально включенных в словарь словоформ это не повлияет, а точность анализа остальных словоформ русского языка будет достаточно высокой.

Для морфологического анализа текстов на основе метода аналогии достаточно располагать обратным словарем концов слов. Но авторы разработки сделали еще Словарь служебных и коротких слов . В этот словарь были включены сначала предлоги, местоимения, частицы, союзы и короткие слова до 5 букв. Затем в него вошли также словоформы, которые по методу аналогии анализировались неверно.

В результате этот словарь увеличился до 11 тысяч словоформ. Таким образом, в процессе морфологического анализа словоформы ищутся в словаре Служебных и коротких слов , а затем в словаре концов словоформ. Результаты анализа, полученные по первому словарю, считаются более надежными, и словоформы, найденные в этом словаре, дальнейшей обработке не подвергаются.В настоящее время вероятность правильного анализа слов при обработке текстов любой тематики превышает 99 . В разработке данной системы наряду с авторами данной статьи принимали участие научные сотрудники отдела лингвистических исследований ВИНИТИ А. П. Новоселов, Е. Ю. Рыжова, С. А. Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Е. Г. Дружинина.

Логические грамматики превратились с течением лет в инструментарий высокого уровня, и теперь они позволяют пользователю сконцентрироваться на лингвистических феноменах.Грамматики, построенные на определенных предложениях, поддерживают использование логики для обработки данных естественного языка, и они подготовили почву для практической работы лингвистов на языке программирования PROLOG. ГРАММАТИКА, ПОСТРОЕННАЯ НА ОПРЕДЕЛЕННЫХ ПРЕДЛОЖЕНИЯХ DEFINITE-CLAUSE GRAMMAR или DCG Проведение работ по исследованию построения грамматик для понимания естественного языка далее ЕЯ приобрело большую популярность после введения Колмеройером в 1975 году грамматических формализмов, основанных на предложениях Хорна. Так называемые метаморфозные грамматики metamorphosis grammars или MGs определили рост заинтересованности в области выражения лингвистических понятий в логике qv и заложили основу для создания качественных блоков предварительной обработки данных процессоров ввода-вывода и интерфейсов.

Основное применение результаты этих исследовательских работ нашли в консультировании и создании баз данных на основе ЕЯ, выработке вопросов и ответов, переводе текстов и синтезе текстов, исходя из надлежащим образом оформленных спецификаций.

Понятие грамматик, построенных на определенных предложениях DCGs , как особого случая метаморфозных грамматик, было введено в 1978 году Перейрой и Уорреном в качестве грамматического формализма, для которого PROLOG имеет эффективный механизм синтаксического анализа. Одни практические системы были созданы для одновременного использования синтаксического и семантического знания для привнесения логики в структуру, содержа в себе информацию для семантической интерпретации.

Другие системы были выстроены на более чем одном уровне трансляции использование синтаксического и семантического знания осуществлялось отдельно друг от друга, и конечным результатом являлось в PROLOGе предложение Хорна, выполнение которого осуществлялось механизмом планирования qv . Техника экстрапозиционных грамматик extraposition grammars или XGs была предложена Перейрой для описания определенных глобальных отношений или экстрапозиций, таких как связь между относительным местоимением и его записью.

В конечном итоге разработки наподобие грамматик структуры определений modifier structure grammars или MSGs Даля и МакКорда, древовидных грамматик tree grammars или TGs Колмеройера и усложненных грамматик puzzle grammars или PGs Сабатье увеличили силу выражения лингвистических понятий.

Все эти исследовательские работы по грамматическим формализмам, замешанным на логике, стали возможны и проще в осуществлении после выбора PROLOGа, языка программирования основанного на подмножестве логики первого порядка.

ЛОГИЧЕСКИЕ ГРАММАТИКИ Грамматики описывают структуру синтаксис языков множеством продукций правил, перерабатывающих текст . Например, правилом sentence - noun-phrase verb-phrase устанавливается связь между тремя нетерминальными символами предложение может состоять из именной группы и следующей за ней глагольной группы.Такие правила могут быть отображены в PROLOGе следующим образом sentence S1, S3 - noun-phrase S1, S2 , verb-phrase S2, S3 . verb-phrase S1, S2 - connects S1, writes, S2 . connects 1, each, 2 . connects 2, author, 3 . connects 3, writes, 4 . Примечание предикаты т. е. выражения с неопределенными терминами, или переменными, которые преобразуются в истинные или ложные высказывания при выборе конкретных значений для этих самых терминов заносятся в PROLOG через запятую.

Переменные отличаются от констант первой заглавной буквой.В нижеследующей записи числа обозначают начало и конец каждого слова 1each2 author3 writes4 Чтобы проверить правильность построения предложения, необходимо указать цель sentence 1, 4 . где бинарное обозначение структуры или бинарный функтор , содержащееся в любой системе PROLOG и продемонстрировать, что она подтверждается предыдущими условиями.

Используя список в качестве информационной структуры для представления предложения, числа больше не нужны, так как PROLOG имеет устройство синтаксического анализа, способного перевести sentence each, author, writes Грамматики, построенные на определенных предложениях, являются объемом понятия контекстно-свободных грамматик, которые также могут быть транслированы на язык PROLOG. Грамматики, построенные на определенных предложениях, позволяют любому логическому выражению стать нетерминальным, они построены на логических символах константах, переменных, выражениях а не только на одних константах.

Также они имеют только один нетерминальный символ в левой части каждого правила. Контекстные зависимости контекстные отношения подчинения описываются логическими переменными в рамках параметров или независимых переменных грамматических символов.

У правила грамматики, построенной на определенных предложениях, следующая форма nonterminal symbol - body основная часть программы . где body основная часть является последовательностью одного или более элементов данных, отделенных друг от друга запятыми. Каждый элемент данных является либо нетерминальным символом, либо последовательностью терминальных символов.

Значение правила состоит в том, что основная часть - это возможная форма для группы типа нетерминальный символ . В PROLOGе нетерминальный символ записывается как выражение а не как список , а последовательность терминальных символов - в виде списка.В правой части правила наряду с нетерминальными символами и списком терминальных символов могут находиться последовательности вызовов процедур, записываемых в фигурных скобках and . Они используются для выражения дополнительных условий, которые в обязательном порядке должны выполнятся, чтобы правило действовало.

Нетерминальный символ преобразуется в N 2 -местный предикат имеющий идентичное название , чьи первые N параметры полностью описаны в нетерминальном символе и чьи последние два параметра являются такими же, как и при трансляции контекстно-свободного нетерминального символа. Вызовы процедур в правой части правила транслируются так, как они есть. Каждое грамматическое правило, типа p X - q X . получает группу входящих данных, анализирует некую исходную часть и генерирует остаток для дальнейшего анализа.

Это частное правило транслируется системой PROLOG как p X, S0, S - q X, S0, S . Следовательно, система грамматической индексации в PROLOGе обеспечивает более сжатую запись, когда параметры для групп входящих и выходящих данных неявно выражены.Когда в правиле содержатся терминальные символы, они транслируются со сказуемым connects . К примеру, connects S1, X, S2 означает, что суть S1 связана через X с сутью S2. Правило p X - older , q X , high . преобразуется в p X, S0, S - connects S0, older, S1 , q X, S1, S2 , connects S2, high, S . АНАЛИЗ ЕЯ В 1977 году Колмеройер ввел общую схему анализа ЕЯ, что явилось решающим шагом вперед и вызвало огромный интерес в области использования логических грамматик как альтернативы прочно утвердившимся грамматикам расширенных сетей переходов augmented transition network grammars . С исторической точки зрения, это можно признать поворотным пунктом, так как был указан метод преобразования предложений ЕЯ в логические структуры. Метод заключался в рассмотрении простейших высказываний, содержащих собственные имена существительные, какой бы то ни было артикль в виде квантора кванторного слова с тремя операциями перехода и четыре приоритетных правила, для разрешения проблемы иерархии квантования количественного измерения качественных признаков . Краткий обзор общей схемы побуждает к дальнейшему развитию приемов составления логических грамматик.

Например, предложение Chomsky is a writer содержит имя собственное, и глагол to be преобразуется в формулу writer chomsky Главным образом глаголы, прилагательные, имена существительные вводят характеристики с n параметрами.

Для глаголов, n может равняться 1 непереходные глаголы или N 1 переходные глаголы, где N - количество комплементов дополнений, следующих за глаголом в составном сказуемом и описывающих его подлежащее . Для прилагательных и имен существительных n равняется или больше 1 отношения, где n - это n-место его параметров . Параметры представляют в предложении дополнения при имени существительном, глаголе или прилагательном.

Например, предложение Chomsky writes a book содержит глагол write , существительное book и артикль a и может быть заменено следующей формой for a B such that B is a book 1 it is true that Chomsky writes B 2 где 1 и 2 являются простейшими высказываниями.

Эта же логическая структура может быть записана в стенографических индексах a B, book B , writes Chomsky , B . Обратите внимание, что высказывания 1 и 2 преобразуются в формулы book B и writes Chomsky, B , соответственно.

Логическая структура выражает смысл предложения, и каждая из ее составных частей соответствует смыслу обособленных слов согласно принципу Фреже. Записи, передающие значение, указываются как логические структуры, так как единственным из области значения, что люди научились точным образом представлять в виде записи в ЭВМ, являются логические отношения.

Всякий артикль a представляет квантор q кванторное слово с тремя операциями перехода, создающий новую формулу из переменной x и двух формул f1 и f2, q x, f1, f2 . Эта формула соответствует высказыванию for a x such that e1, it is true that e2 где e1 и e2 являются простейшими высказываниями соответствующими f1 и f2. Например, предложение Chomsky writes a book for each publisher содержит глагол write , два существительных book и publisher и два артикля a и each и может быть заменено следующей формой for each P such that P is a publisher it is true that for a B such that B is a book, it is true that Chomsky writes B for P Предложение преобразуется в логическую структуру each P, publisher P , a B, book B , writes-for Chomsky, B, P . Эта логическая структура отражает следующее приоритетное правило в конструкции с использованием имени существительного book и его дополнения publisher , квантование, представленное артиклем при дополнении, влияет на квантование, представленное артиклем при имени существительном.

Помимо этого правила Колмеройер предложил еще 3 приоритетных правила для организации возможности квантования.

АНАЛИЗ КОЛМЕРОЙЕРА ДЛЯ КОНКРЕТНОГО ЕЯ Общая схема анализа была изначально предложена Колмеройером для французского и английского языков. Позднее Даль адаптировал ее для испанского, Коэлхо - для португальского, а Пик предложил иную семантику для артиклей французского языка.ОБЩАЯ СХЕМА АНАЛИЗА КОЛМЕРОЙЕРА В КАЧЕСТВЕ ГРАММАТИКИ, ПОСТРОЕННОЙ НА ОПРЕДЕЛЕННЫХ ПРЕДЛОЖЕНИЯХ DCG DCGs поддерживают процессы синтаксического анализа и транслирования благодаря взятым ими на вооружение из подмножества ЕЯ, необходимым элементам синтаксиса и семантики.

Процесс синтаксического анализа состоит из доказательства, что цепочка слов является законным и правильно построенным предложением с точки зрения выбранного синтаксиса . Процедура доказательства осуществляется через исследовательскую стратегию с конца на начало, сверху вниз, слева направо и через правило умозаключения логического вывода , где заключением является qv, уже после отработки системы PROLOG. Трансляция заключается в изображении каждого предложения в виде логической структуры.

Эта структура состоит из правильно построенных формул определенной логической системы, которая основывается на объеме понятия логики предикатов qv . Механизм транслирования выражается как множество определенных предложений логики через грамматические правила PROLOGа. Он механизм может содержать, как вместе, так и по отдельности синтаксические и семантические знания из подмножества рассматриваемого ЕЯ. Механизм синтаксического анализа зависит от системы PROLOG, и он может быть вскрыт включением отслеживающего устройства.

Трансляция и синтаксический анализ - независимые друг от друга процессы, их независимость позволяет легче производить изменения в грамматике. Упрощенная грамматика, обозначаемая через G, рассматривается следующим образом.Она производит синтаксический анализ английских предложений, одновременно порождая соответствующие им логические структуры.

Грамматика определяется 2 модулями 1 синтаксис семантика 2 морфология и имеет дело с предложениями типа Hodges writes for Penguin.СИНТАКСИС СЕМАНТИКА sentences S - noun-phrase NP, S2, O , verb subject-X L , O1 , complements L, O1, O2 . complements , O, O complements K-N L , O1, O3 - complements L, O1, O2 , case K , noun-phrase N, O2, O3 . noun-phrase N, O2, O4 - article N, O1, O2, O3 , common-noun subject-N L , O1 , complements L, O3, O4 . noun-phrase PN, O, O - PN , proper-noun PN . article A, O1, O2 and O1, O2 - a . case for - for . case direct МОРФОЛОГИЯ verb subject-A, for -P , is-published-by A,P - writes . common-noun subject-P , publisher P - publisher . proper-noun hodges . proper-noun penguin . К примеру, правило noun-phrase PN, O, O - PN , proper-noun PN . представляет собой структуру noun-phrase PN, O, O, S0, S - connects S0, PN, S , proper-noun PN . Первое правило грамматики G, по идее, признается справедливым только для предложений, в которых за именной группой следует глагол с возможно некоторыми дополнениями.

Первое грамматическое правило для дополнений допускает их отсутствие терминальный символ выступает в роли пустого списка , второе правило для дополнений определяет последовательность дополнений как группу данных, составленную из дополнения, падежа и именной группы.

Различные параметры отличных друг от друга нетерминальных символов связаны одной и той же логической переменной.

Это позволяет строить структуры в процессе унификации.Именная группа a publisher анализируется и транслируется грамматическим правилом как noun-phrase N, Oa, Ob - article N, Oc, Od, Oe , common-noun N, of , constraints Oa, Ob, Oc, Od, Oe, Of . Заметьте, что это правило - упрощенная версия четвертого правила представленной грамматики G. Нетерминальный символ для именной группы имеет 3 параметра. Интерпретация последнего параметра Ob будет зависеть от характеристики Oa индивидуума N, так как в общем именная группа содержит артикль, такой как a . Теперь смотри на правую часть правила.

Слово a имеет интерпретацию Oe, and Oc, Od в контексте двух характеристик Oc и Od индивидуума N. Характеристика Oc будет соответствовать оставшейся части именной группы, содержащей слово a , а характеристика Od вытекает из остатка предложения.Значит, Oe будет содержать всеобъемлющую интерпретацию и связываться с Ob через одну и ту же переменную.

Так как Of является характеристикой нарицательного существительного, она связывается с Oc одной и той же переменной. Oa имеет описание характеристик N, а также зависит от характеристик оставшейся части предложения. Поэтому Oa связывается с Od через одну и ту же переменную. Каждое слово ассоциируется с характеристикой.Например, значение глагола writes вводится отношением is-published-by A,P . Глагольное правило также содержит информацию о характеристиках отношения, а именно то, что A играет роль подлежащего предложения а P навязывает использование предлога for . Значение неопределенного артикля a вводится конъюнкцией and O1, O2 согласно определению, принятому в классической логике.

Более продвинутая по сравнению с G грамматика имела бы более скрупулезно разработанные дефиниции существительных, глаголов, прилагательных, артиклей noun A- author type-X , pr author X - no author, A . no Type,GN - Noun , no1 Noun, Type, GN . no1 author, author,mas-sin . verb G-N -V type-X, dir-A-W title-Y , pr author X, Y - ve writes, N . ve Type, N - Verb , ve1 Verb, Type, N . ve1 writes, writes, sin . adjective A- author type-X, prep by pub type-Y , pr published Y,X - ad pub, A . ad Type, GN - Adj , ad1 Adj, Type, GN . ad1 published, pub, mas-sin . article G-sin - D-X, O1, O2, for X, D and O1, O2 , cardinality X, greater, 0 art-ind G-sin . art-ind mas-sin - a some . Замечание безымянные переменные записываются в PROLOG как . Эти дефиниции включают синтаксические и семантические проверки, такие как грамматический род, число, семантические типы. Значение артикля также отличается.

Вместо квантора с двумя операциями перехода оно было введено квантором с тремя операциями перехода. Первая операция перехода - квантование переменной X, вторая - для основной характеристики and переменной X, третья - для точного определения характеристики мощности множества и ограничения области переменной X. ОБЛАСТЬ ПОНЯТИЙ ГРАММАТИК, ПОСТРОЕННЫХ НА ОПРЕДЕЛЕННЫХ ПРЕДЛОЖЕНИЯХ Экстрапозиционные грамматики XGs увеличивают мощь DCGs при перечислении контекстных зависимостей.

Правила XG могут иметь в своей левой части более одного нетерминального символа и символ пробела , выражающий случайную цепочку логических символов терминальных и нетерминальных . Например, правило экстрапозиционной грамматики Relative-marker complement - that . утверждает, что относительное местоимение that может быть проанализировано как относительный показатель, за которым следуют какие-нибудь неизвестные фразы и затем дополнение.

XGs упрощают выражение синтаксических представлений и следовательно позволяют упростить трактовку семантических и логических описаний.

Параметры для нетерминальных символов используются как и в DCGs для проверок согласования, производства дерева синтаксического анализа и ограничения возможности присоединения постмодификаторов.Грамматики структуры определений MSGs увеличивают вероятность точного описания несинтаксических репрезентаций.

Они упрощают автоматическое моделирование таких репрезентаций при одновременно происходящем анализе. Древовидные или древесные грамматики TGs позволяют лучше ориентировать лингвистические конструкции. Усложненные грамматики PGs являются средством, разработанным специально для нужд лингвистов. Правила их стратегии описывают порядок и режим трансляции, и описываются эти правила независимо друг от друга.Дерево непосредственных составляющих ДНС обеспечиваает структорное описание предложений.

Граматика непосредственных составляющих ГНС характеризует ДНС. И то и другое поэтому играют важную роль в обработке естественного языка для создания структурных описаний предложения, которые могут быть использованы в обработке систем понимания или порожления речи. Дерево непосредственных составляющих ДНС кодирует иерархическую структуру предложения. Эта информация двух видов иерархическая структура группирования и синтаксические категории этих группирований.Предложение John wanted to publish the paper. 1 имеет следующую структуру 2 John wanted to publish the paper Эта структура может быть представлена и в скобочной конструкции John wanted to publish the paper 3 2 и 3 описывают группирование без идентификации составляющих.

Такие конструкции называются скелетом . Скелеты характеризуют фразу без обозначения вершин дерева. Скелет с обозначением категорий является ДНС, для фразы 1 это будет выглядеть так S NP VP VP NP 4 NPR V P V DET N John wanted to publish the paper John является здесь именем собственным, которое является также группой подлежащего, wanted и publish - глаголы, to - предлог точнее говоря to должно быть названо частицей или временем , the - детерминатор, paper - существительное, the paper - группа существительного, to publish the paper - группа сказуемого, wanted to publish the paper - тоже группа сказуемого, и наконец, John wanted to publish the paper - предложение.

Соответственно скобочная конструкция 3 будет выглядеть так S NR NPR John VP V to V publish NP DET the N paper 5 Конструкции 4 и 5 обычно но не всегда используются в системах обработки естественного языка.

Грамматика непосредственных составляющих ГНС ГНС состоит из набора нетерминальных символов таких как N, V, NP, VP, S и т.д. и из набора терминальных символов таки лексические единицы как John wanted , to , publish , the , paper и т. д. и из набора правил, которые позволяют переписывать нетерминальные символы в цепочку терминальных и нетерминальных симвлов.

Если это переписывание не зависит от контекста, то это контексто-независимая грамматика КНГ , в противном случае - это контекстозависимая грамматика КЗГ . Правило перезаписи имеет следующую форму А Х 6 где Х - последовательсть терминальных и нетерминальных символов, а А - нетерминальные. КЗГ имеет иследующее правило перезаписи ZAW ZXW 7 где X, Z, W - цепочки терминальных и нетерминальных символов, а А - нетерминальные.В 7 А и Х находятся в окружении Z и W. Часто эта формула пишется в виде A X Z - W 8 Деревация в КНГ начинается с начального символа S и далее идет до тех пор, пока не будет применено последнее правило.

Порядок применения правил не важен.S - NP VP NP - NPR NP - DET N VP - V VP VP - P V NP NPR - John, Mary, Bill N - paper, man, cow V - wanted, meet, want P - to DET - the Несколько формальных свойств ГНС Если все правила некоторой ГНС G являются контекстно сводными, то G называется контекстно свободной грамматикой КСГ . Если некоторые правила ГНС являются контекстно зависимыми, то G разывается КЗГ. Строчный язык некоторой ГНС G определяется как набор всех конечных строк, полученных из G и этот набор обозначается L G . Строка w считается полученной из G, если w можно получить при последовательном переписывании начального символа S, используя правила грамматики G. Строчный язык L т.е. набор конечнных строк называется контексто свободным языком КСЯ , если существует такая КСГ, что L G L. L называется строго контекстно зависимым языком , если не существует такой КСГ, что КСГ, что L G L, и существунт такая КЗГ, что L G L. Заметьте, что грамматика G может быть контекстнозависимой, но ее строчный язык L G не обязательно должен быть КЗЯ. Класс КЗЯ включает класс КСЯ. В этом смысле, КЗЯ являются более мощным чем КСЯ. Однако есть и другой случай, когда КЗЯ не являются более мощными чем КСЯ. Если некоторая КЗГ, G, используется для анализа , в этом случае язык анализируемый при поиощи G - контекстносвободный 6, 7 . Для того чтобы объяснить использование КЗГ G для анализа данного дерева t, определим анализ t следующим образом.

Груба говоря анализ t представляет собой некий срез дерева.

Дадим более точное определение Набор Pt для анализа дерева t определяется следующим образом 1. Если t пустое дерево , тогда Pt 2. Если t A t0 t1 tn тогда Pt A v P t0 P t1 P tn где t0, t1 tn - деревья, А . обозначает соединение например S A B C d E c e Pt S, AB, AE, Ae, CdB, CdE, Cde,cdB, cdE, cde Пусть G - контекстно зависимая грамматика, т.е. ее правила имеют форму А - где А V - V - алфавит, и набор терминальных символов , V набор ненулевых строк на множестве V и , V набор всех строк на V . Если и - равны нулю, то такое правило называется контекскносвободным.

Дерево t называется анализируемым в терминах грамматики G, если для каждого узла дерева t выполняются правила G. Контекстно зависимое правило А - выполняется для узла А, если строка соответствующая ответвлению от узла А, является и существует анализ t вида 1А2 , где 1, 2 V . Контекстное условие - называется анализом предиката.

Наряду с контекстозависимымми правилами правилами, позволяющими специфицировать правый и левый контекст, часто необходимо иметь правила специфицирующие верхний и нижний контекст.

Имеем узел А дерева t, область V , содержит узел А, если существует путь от корня до края дерева, и этот путь имеет форму 1А2 1, 2 V . Контекстное условие, связанное с таким вертикальным анализом называется господствующим предикатом . В общем виде правило имеет форму А СА где СА - булева комбинация анализа и господствующих предикатов.

Пусть G - конечный набор правил и G - набор деревьев, анализируемый G. Предполагается, что деревья G - предложения т.е. корневой узел дерева G обозначен начальным символом S, а конечные узлы - терминальными символами.Покажем, что строчный язык L G xx, где х терминальная строка дерева t, и t G контекстно свободен 7 . Пример Пусть V S, T, a, b, c, e и a, b, c, e , и G - конечный набор строгих правил. 1. S e 2. S aT 3. T aS 4. S bTc a DOM T 5. T bSc a DOM S Для правил 1, 2, 3 имеет место нулевой контекст и эти правила - контекстносвободные.

В четвертом и пятом правиле по условию требуется а слева и узел подчиняется Т в пятом правиле S . Язык, порожденный G, может быть порожден G1 S e S aT1 S aT T aS1 T aS T1 bSc S1 bTc Грамматика G1 содержит дополнительные нетерминальные символы S1 и Т1 для проверки локального контекста при порождении. Легко заметить, что при помощи S1 и Т1, достигается гомоморфизм, позволяющий анализировать любое дерево G1 при помощи G и обратно - любое дерево G имеет гомоморфный прообраз в G1. Рассмотрим еще раз контекстно зависимое правило 10 . V wanted -VP когда 10 интерпретируется как ложное правило, как описано выше, лексема wanted появляется над узлом V, только если узел VP находится справа от нее в дереве, где появляется V . Справа от V существует строка, имеющая VP анализ . Контекстно-зависимые правила в КГЗ используются для анализа обычных грамматик, а не есть правила простого переписывания строк.

Терминальные символы в ГНС. До этого момента терминальные символы были представлены как нереализуемые элементы.

Это было сделано для простоты изложения. Терминальные символы представляют собой наборы топологических, синтаксических и семантических признаков 4, 8 . В принципе возможно ликвидировать все эти признаки посредством введения новых нетерминальных символов.Однако их количество будет слишком велико в соответсвии с большим количеством всех возможных комбинаций этих признаков . Это также повлечет значительное усложнение грамматики . Например, терминальные символы в 4 заменяются на составные комплексные символы и получаем 4 . S NP VP NPR V VP NP John wanted P V N V DET N -DET NP to publish Animate . V the paper - NP DET N Definite DET - Singilar Здесь не обсуждается возможность связи комплексных символов и промежуточных узлов.

Форма 4 является структурным описанием СО предложения 1 John wanted to publish the paper ГНС в трансформационной грамматике ТГ . ТГ также не обсуждаются в этой статье.

Однако важно заметить, что ГНС и деревья НС играют важную роль в ТГ. Основная идея заключается в том, что некоторые структурные описания СО описываются в базовом компоненте ТГ, а все остальные выводятся из них при помощи специальных правил, называемых трансформациями.Базовым компонентом является ГНС, которая определяет набор деревьев НС. Деревья, полученные при помощи трансфомаций также являются деревьями НС. Такой взгляд на ТГ является классическим и, конечно, упрощенным, хотя и достаточен для данного описания.

Так, например, дерево НС для предложения 11 , показанное на диаграмме 12 - является базовым. Дерево НС 14 для предложения 13 , получается при применении трансформационного правила. John saw Mary S NP AUX VP NPR V NP John past see NPK Mary Mary was seen by John. S NP AUX VP NPR Обобщенная грамматика непосредственных составляющих.Обобщенная грамматика непосредственных составляющих ОГНС в настоящее время широко используется в прикладной лингвистике.

Если рассуждать математически, ОГНС - это вариант контекстно-свободной грамматики непосредственных составляющих. Исторически ОГНС развивалась из грамматики Монтегю Montague . Грамматикой непосредственных составляющих пренебрегали в течение двух десятилетий.Затем оказалось, что все доводы против ее описательной неадекватности для естественных языков оказались неверными или основанными на ложных предпосылках.

Данная грамматика очень хорошо воспринимается прикладными лингвистами и программистами. В Обобщенной грамматике НС контекстно-свободная грамматика НС выражается не в явном виде, а посредством различных приемов, которые позволяют определить лингвистически значимые обобщения и предлагают правила умножения, более компактные, чем простое перечисление правил. Теоретическое представление ОГНС определяет синтаксические категории как набор синтаксических признаков.Синтаксческий признак - это определение, состоящее из двух символов, определяющих сам признак например, падеж и его значение родительный , либо это может быть синтаксическая категория т.е. признаки могут принимать категории в качестве их значений .Синтаксическая категория, таким образом, является частично функцией перехода от признака к его значению.

Внутреннее составление категорий ограничивается возможными комбинациями признаков Булевы условия . синтаксические структуры - это деревья непосредственных составляющих, которые организуются по вышеупомянутому принципу.

Построение дерева осуществляется по определенным правилам правила зависимости, правила линейного предшествования, принципы иллюстрации признаков и правила определения основных признаков. Правила зависимости позволяют одному слову зависеть от другого. Например, S - NP,VP. Правила зависимости либо перечислены, либо выводятся из других метаправилами.Правила линейного предшествования определяют порядок появления категорий. принципы иллюстрации признаков основаны на дублировании признаков т.е. согласование прилагательного и существительного, глагола и существительного . правила определения основных признаков работают тогда, когда категория может встретиться, только если в предложении не встретилась отрицающая ее категория. Применение в прикладных целях Работа грамматики непосредственных составляющих покрывает такие категории, как систему вспомогательных глаголов английского языка, согласование, вопросы, относительные предложения, пассивные конструкции, сочетания с существительным и т.д. Эта грамматика была разработана не только для английского языка, но также для арабского, каталанского, китайского, голландского, французского, немецкого, греческого, хинди, ирландского, японского, корейского, латинского, польского, испанского, шведского и уэльсского.

Многие современные системы используют грамматику непосредственных составляющих.

Самый большой коммерческий проект с использованием анализатора на основе грамматики НС принадлежит фирме Hewlett Packard и называется HPSG . Дерево непосредственных составляющих Деревья НС представляют структурное описание для предложений. В дальнейшем структурное описание предложения может использоваться в системах, анализирующих или синтезирующих естественный язык. Пример дерева НС для предложения John wanted to publish the paper.

S NP VP VP NPR V P V NP DET N John wanted to publish the paper Соответствующая структура скобок S NP NPRJohn VP Vwanted VP Pto Vpublish NP DETthe Npaper Деревья НС и структуры со скобками являются теми структурами, которые порождаются анализатором систем, обрабатывающих естественный язык. Грамматики непосредственных составляющих Грамматики НС состоят из набора неконечных символов например, такие категории, как N, V, DET, P, NP, S и т.д набора конечных символов лексические единицы типа Джон , купить , газета и т.д. и набор правил, которые преобразуют неконечные символы в цепочку коненых и неконечных символов.

Если данные правила не зависят от контекста неконечного символа, то такая грамматика называется контекстно-свободной в противном случае грамматика называется контекстно-зависимой.

Грамматика НС в Трансформационной грамматике. Грамматика НС играет очень большую роль в трансформационной грамматике. Основная идея ТГ заключается в том, что для структурного описания существует базовый компонент и, соответственно, базовые правила.Все остальные правила выводятся из базовых путем трансформационных правил.

Деревья, порожденные трансформационными правилами, также являются деревьями непосредственных составляющих. Данное представление ТГ является сильно упрощенным, но для данной работы его вполне достаточно.Возрождение грамматики НС и деревьев НС Начиная примерно с 1975 года в грамматику НС были внесены некоторые дополнения и обновления. Не выходя за рамки контекстно-свободной грамматики, образовалась Обобщенная грамматика непосредственных составляющих ОГНС . Грамматика Сложения Деревьев ГСД - Tree-Adjoining Grammar - образовалась на основе построения деревьев без использования правил перехода.

Рассмотрим эти две грамматики. Обобщенная грамматика непосредственных составляющих ОГНС . Кроме всех вышеупомянутых свойств грамматик НС Газдар Gazdar ввел в ОГНС два новых понятия пустые категории элипсис? и связанные правила, а также метаправила для вывода одних правил из других.Элипсис и связанные правила не увеличивают порождающую способность за пределы контектсно-свободной грамматики.

Метаправила, если они не ограничены какими-либо условиями, увеличивают порождающую способность за пределы контекстно-свободной грамматики, потому что метаправило может порождать бесконечный набор контекстно-свободных правил, которые в свою очередь порождают контекстно-зависимый язык. Метаправила в реальных грамматиках, описанных по правилам обобщенной грамматики НС, достаточно ограничены и поэтому не увеличивают порождающую способность.Элипсис и связанные правила нужны представлены для базового порождения несвязанных зависимостей, которые должны быть учтены в предложении.

Пример связанного правила - это правило, которое представляет элипсис для топикализации, т.е. нахождения топика в предложении. Понятие элипсиса не новое понятие. Его также упоминали Harris, Kuno и Sager. В контекстно-свободной грамматике Kuno существуют имена узлов с соответствующими описаниями, которые отражают пропущенную составляющую. Sager создал очень полный анализатор.Его идеи переплетабтся с идеями Газдара.

Но Газдар был первый, кто внедрил понятие элипсиса и связанных правил в формальную рамку синтаксической теории и использовал это понятие систематически для объяснения структуры деревьев.Грамматика Сложения Деревьев ГСД . В обобщенную грамматику непосредственных составляющих были внесены некоторые изменения, а именно эти изменения позволяют создавать структурные описания по принципу трансформационной грамматики, но без использования трансформационных правил.

Грамматика Сложения Деревьев заимствовала у трансформационной грамматики технологию построения деревьев непосредственных составляющих по определенным правилам построения деревьев. ГСД состоит из набора начальных деревьев и набора дополнительных деревьев, а также операции Сложения.Начальные и дополнительные деревья вместе называются базовыми деревьями. Дерево А называется начальным деревом , если оно имеет форму S A Конечные символы Корневой узел отмечен символом S, пограничные узлы являются конечными символами.

Внутренние узлы - неконечные символы. Дерево В называется дополнительным , если оно имеет форму Х В Х Конечные Конечные Операция Сложения состоит в том, что начальное дерево как бы накладывается на дополнительное дерево по корневому узлу. ГСД более мощная, чем контекстно-свободная грамматика.Существуют языки, которые могут быть порождены ГСД, но не КСГ например, контекстно-зависимые языки . ГСД иллюстрирует, как деревья непосредственных составляющих могут быть получены из базовых деревьев.

В отличие от трансформационной грамматики это достигается не с помощью трансформационных правил, а с помощью операции Сложения. ГСД может порождать деревья с пересекающимися зависимостями. Резюме Деревья непосредственных составляющих обеспечивают возможность структурного описания предложений.Деревья НС могут быть порождены грамматиками НС. Деревья НС могут использоваться для характеристики структурного описания предложений, включая те аспекты, которые обычно характеризовались трансформационными грамматиками. Эти характеристики предполагают внесение изменений в контекстно-свободную грамматику, не увеличивая ее порождающую способность, или порождение предложений из азовых деревьев с помощью операции Сложения, что все же несколько увеличивает порождающую способность.

Структурные описания, сделанные с помощью деревьев НС, используются непосредственно или в неявном виде в системах, описывающих естественный язык. Порождение текстов на естественном языке Порождение текстов на естественном языке - процесс преднамеренного построения текста на естественном языке с целью решать определенные коммуникативные задачи.

Термин текст рассматривается как общий, рекурсивный термин, который может относится к письменному или устному высказыванию, или к отдельным частям высказывания. При порождении текстов, в устной или письменной форме, человеку важно обдумать и отредактировать производимое высказывание.Едва ли можно сказать, что большинство программ может говорить сегодня, в основном все они лишь выводят слова на экран.

Так как для программы порождения текстов на сегодняшний день не стоит вопрос конструирования фразы, эти детали принимаются во внимание только тогда, когда они задействованы в создании программы.Цели исходят из другой программы, возможно экспертной рассуждающей системы или ICAI обучающей программы, которая общается с пользователем на естественном языке. Произведенные тексты могут быть различной длины от одиночной фразы, данной в ответ на вопрос, до диалогов с большим количеством предложений или толкований на целую страницу.

Порождение текстов на естественном языке отличается от программ, просто использующих естественный язык. Программы, печатающие сообщения на естественном языке, существуют со времен появления компьютеров, но сейчас, например, никто не хочет разбираться, каким образом построены сообщения об ошибках при компиляции на ФОРТРАНе, как бы правильно они не были написаны.

Сообщение об ошибках ничего не означает для программы, которая печатает их связь между цепочкой слов и работой программы создается программистом.Даже использование утверждений с параметром, где зафиксированная цепочка слов может быть увеличена именами или простыми описаниями, заменяющими переменные, не является собственно порождением текстов на естественном языке. Успех таких приемов как заполнить пробелы или шаблон зависит от количества и сложности ситуаций, в которых программа должна использовать их. То, что они были адекватны до сих пор для работы программы, объясняется, по большей части, относительной простотой сегодняшних программ, чем возможностями порождения с использованием метода шаблона . В отличие от таких инженерных разработок , исследование порождения текстов на естественном языке, подобно другим областям вычислительной лингвистики qv , имеет своей целью компьютерное моделирование человеческой способности к порождению высказываний.

Основное внимание при этом сосредотачивается на объяснении двух ключевых вопросов многосторонность и творческий потенциал.

Что люди знают относительно их языка, какие процессы они при этом используют, что дает возможность им быть универсальным, изменяя тексты в форме и акцентировании, чтобы покрыть огромный диапазон языковых ситуаций? В этой статье описываетcя исследование в области ИИ по порождению естественных языков, при этом особое внимание уделяется конкретным проблемам, которые требуют разрешения.Статья начинается с противопоставления порождения пониманию, чтобы установить базисные понятия разложения процесса на компоненты.

Далее приводятся примеры, показывающие работу некоторых порождающих систем, их возможности и трудности, с которыми они сталкиваются. В оставшейся части статьи рассматриваются общие подходы к порождению речи, включая характерные описания порождающего словаря. Отдельный раздел продолжает обзор альтернативных подходов к представлению и использованию грамматики.Характер процесса порождения.

В отличие от организации процесса понимания, который, на первый взгляд, может следовать традиционным стадиям лингвистического анализа морфология, синтаксис, семантика, прагматика дискурс процесс порождения имеет существенно отличный характер. Этот факт следует непосредственно из присущих различий в информационном потоке в двух процессах. Понимание осуществляется от формы к содержанию порождение есть совершенно противоположный процесс.При понимании, формулировка текста и, возможно, интонация - известны . Из формулировки процесс создает и выводит примерное содержание, переданное текстом и, вероятно, усилиями диктора в создании текста.

Первым делом следует просмотреть слова текста последовательно, в течение чего форма текста постепенно разворачивается.Главные проблемы вызваны неоднозначностью одна форма может содержать диапазон альтернативных значений, и аудитория получает большее количество информации из ситуационных заключений, чем это может быть фактически передано текстом.

Кроме того, несоответствия у диктора и аудитории модели ситуации ведут к непредсказуемым заключениям. Порождение имеет противоположный информационный поток. Оно переходит от содержания к форме, от целей и перспектив к линейно упорядоченным словам и синтаксическим маркерам. Модель ситуации и дискурс обеспечивают основу для создания выбора среди альтернативных формулировок и конструкций, которые производит язык первое в построении заранее обдуманного текста.Большинство систем порождения производит поверхностные тексты последовательно слева направо, но только приняв решение сверху-вниз по содержанию и форме текста в целом.

Проблема генератора состоит в том, чтобы выбрать из поставленных источников, как правильно сообщить о желаемых умозаключениях аудитории и какую информацию опустить из явного упоминания в тексте. Можно вообразить, что процесс порождение также организован, как и процесс понимания, только в противоположном порядке.К некотором смысле это верно идентификация намерения цели в значительной степени предшествует любой детализации информация, которая предназначается для аудитории планирование риторической структуры, например, в значительной степени, предшествует любой синтаксической структуре, а синтаксический контекст слова должен быть зафиксирован, прежде чем будут известны морфологическая и суперсегментная формы, которые примет слово.

Синтаксис и словарь языка становится как ресурсами, так и ограничениями, определяя элементы, доступные для создания текста, а также зависимости между ними, которые определяют возможные правильные комбинации.

Эти зависимости, и тот факт, что они по умолчанию управляют, когда информация, от которой зависит каждое решение, становится доступной основная причина, почему программы порождения в значительной степени следуют стандартным стадиям, определенными лингвистами.Идентификация цели предшествует выбору содержания и риторическому планированию, которое предшествует синтаксической конструкции, только потому что это - естественный порядок принятия решения проще следовать потоку зависимостей, чем перепрыгивать и принимать случайное решение, которое может оказаться преждевременным и несостоятельным.

Сегодняшнее исследование сосредоточено как на понимании, как лучше представить решения, которые являются возможными, и зависимости среди них, так и на том, как представить ограничения и возможности раньше решений, которые встанут на место последних во время процесса порождения.

Стандартные Компоненты и Терминология. Компоненты порождения естественного языка не существуют сами по себе. Они расположены внутри человеко-машинного интерфейса, который также используют и компоненты понимания естественного языка ВВОД в систему. В хорошем человеко-машинном интерфейсе сегодня также хотелось бы видеть координированную графическую поддержку ввода и вывода, дополняя систему ВВОДа-ВЫВОДа естественного языка.Интерфейс может закончиться здесь, а может также включать в себя другие общедоступные компоненты, типа контроллера дискурса, который указывает генератору, какие действия нужно предпринять, а также координирует интерпретации, сделанные компонентом понимания.

За интерфейсом следует нелингвистическое рассуждение qv или программа базы данных, которую пользователи используют в качестве речевого интерфейса.Эта программа будет упоминаться в этой статье как основная программа ею может оказаться любая система ИИ совместная база данных, экспертная диагностическая система, ICAI обучающая программа, комментатор, программа-консультант, машинный переводчик.

Тип основной программы теперь не имеет никакого значения для самой порождающей системы генератора естественного языка . Сегодня большинство исследователей в этой области работает, в основном, с экспертными системами, где процесс общения контролируется программой, а не пользователем.Кроме того, ЭС и интеллектуальные машинные обучающие программы, вероятно, способны понимать довольно сложные тексты, что делает их привлекательными для специалистов, готовых работать с уже разработанными системами.

Процесс порождения начинается внутри основной программы, в случае, когда, например, необходимо ответить на вопрос пользователя или во время беседы может возникнуть потребность прервать действия пользователя, чтобы указать надвигающуюся проблему.Как только процесс инициализирован, три вида действий должны быть выполнены 1. Идентификация целей высказывания, 2. Планирование, как эти цели могут быть достигнуты, включая оценку ситуации и доступных коммуникативных ресурсов, 3. Реализация планов в текст.

Цели должны обычно передавать некоторую информацию аудитории или побуждать их к действиям или рассуждениям. Социальные и психологические, а также практические мотивы, побуждающие человека к общению, естественно, неприменимы для сегодняшних компьютерных программ.Планирование включает в себя отбор преднамеренное вычеркивание информационных модулей, которые появляются в тексте например, концепции, отношения, индивидуальность . Реализация зависит от знания грамматики языка и правил связности дискурса, и дает синтаксическое описание текста как промежуточное представление.

При этом выделяется не только лингвистическая форма, но также знание относительно критериев, которые показывают, как используются эти формы.В многих исследованиях процесс, который проводит грамматическую реализацию, называется лингвистическим компонентом 10 , а иногда планирование и вместе с процессом идентификации цели называется стратегическим компонентом 13 . Обычно это - только лингвистический компонент, который имеет любое прямое знание относительно грамматики производимого языка.

Какую форму эта грамматика принимает - один из самых больших различий среди проектов порождения. Традиционно для лингвиста, грамматика - костяк в отрезке утверждения высказывания.Содержание утверждений - специфические факты данного естественного языка - не представляет такого интереса для лингвиста.

Аналогичная ситуация с порождением текстов, за исключением того, что запись - процедурная и декларативная - разработана, чтобы обеспечивать очень специфическую функцию, с которой традиционный лингвист не сталкивается, а именно вести и сдерживать процесс порождения текста со специфическим содержанием и целями в присутствии специфической аудитории. Грамматика теперь ответственна за наличие выбора, который язык предоставляет для формы и словаря.Исследователи порождения должны сделать верный выбор, чтобы, используя функции различных конструкций для достижения конкретной цели. Другая функция грамматики - следить за грамматичностью текста, т. е. определение зависимостей и ограничивая решения.

Технический уровень Разноплановое развитие и творческий потенциал в порождении текстов является возможным при следующих условиях 1. Генератор включает в себя весь объем основной грамматики 2. Основная программа имеет сложное, разносторонее, концептуальное представление вид 3. Текстовый планировщик может использовать модели аудитории и дискурса.

К сожалению, такие генераторы - все еще только предмет исследования сегодня, т. к. техническая сторона остается на уровне программы SHRDLU Винограда в 1970 17 , которая порождала предложения в процессе ответа на вопросы, система непосредственной замены , порождающая простые грамматические глагольные корректировки в целях достижения удобочитаемого текста.When did you pick up the green pyramid ? While I was stacking up yhe red cube, a large red block, and a large green cube. К концу 1970-ых такие системы стали достаточно популярны в работе ЭС для перевода многочисленных правил в этих системах. Необходимость программ порождения текстов в системах с составной структурой и коммуникативным контекстом была очевидной.

Исследователи заинтересованы в более сложных текстах, нежели в контекстно-свободных представлениях, которые требуются правилами системы.В качестве примера приводится простое описание из программы Сигурда, чья цель была выяснить, как в помощью интонации выявляется группировка The submarine is to the south of the port. It is approaching the port, but is not close to it. The destroyer is approaching the port too. Использование слов-ссылок but too является большим прогрессом в структурировании системы.

Предложение, которое является источником в базе данных ЭС , рассуждающее о субмаринах и эсминцах, не будет обрамлено концептуальными эквивалентами таких функциональных слов, и может быть прочтено простым шаблоном, потому что ссылки специфичны и могут быть употреблены только в отдельном конкретном случае.

Еще одна техническая, пока не разрешенная, проблема - последующая ссылка . Какими должны быть слова-заменители, если предмет появляется больше, чем один раз в тексте? Постоянное употребление местоимений может привести к неоднозначности.В качестве примера приводится отрывок из исследований Гранвилле, который классифицирует отношения между референтом и предметом и разрабатывает правила, по которым бы могли строиться последующие ссылки.

Pogo cares for Hepzibah. Churchy likes her, too. Pogo gives a rose to her, which pleases her. She does not want Churchys rose. He is jealous. He punches Pogo. He gives a rose to Hebzibah. The petals drop off. This upsets her. She cries.Неудивительно, что у исследователей, разрабатывающих основную программу, генераторы обладают наибольшей эффективностью, что дает уверенность в том, что имеется концептуальная основа для группирования отдельных предложений утверждений в тексте.

Важным моментом на этом этапе является программа PROTEUS, разработанная Дэйви в 1974. Программа дает описание игры крестики-нолики и считается одной из программ, наиболее свободно владеющей естественным языком. PROTEUS имеет модель толкования конкретных шагов нападение, встречное нападение, включает в себя риторический принцип, что в текст нужно помещать только наиболее существенную информацию в ситуации.Грамматика и средства реализации выбирают описанные и сгруппированные шаги, исправляют формы, так чтобы они были грамматичны в английских предложениях, и порождают собственно текст.

Следует упомянуть и программу ERMA Клиппенгера 1974 - единственная программа на тот момент, работающая со спонтанной речью.Как люди размышляют о том, что они говорят, как они динамически планируют или меняют свои намерения относительно того, что они хотят сказать в разговоре? В целях моделирования этого процесса, Клиппенгер анализировал стенограмму речи пациента по психоанализу с тем, чтобы понять рассуждения пациента, дающие объяснение одному из параграфов стенограммы, который ERMA могла подробно воспроизвести.

Клиппенгер разработал структуру из пяти основных взаимосвязанных компонентов, участвующих в порождении спонтанного текста. Но для компьютерного программирования в 1974 реализовать этот план было не под силу, вследствие чего проект был оставлен. Исторический обзор проблемы.По сути дела, программы PROTEUS Дэйви и ERMA Клиппенгера являются самыми старшими в этой области.

Во-первых, потому что до начала 80-ых сравнительно мало людей работало над проблемой порождения , во-вторых, сама проблема достаточно сложна, по мнению авторов статьи, намного сложнее проблемы понимания речи. На самом деле, проблемой серьезно занимались в начале 1970-ых. Но справедливо отметить, что на важной конференции по данной проблеме в 1975г представленные отчеты о проделанной работе не нашли должного отклика, после чего исследования по порождению естественного языка были почти приостановлены до начала 1980-ых. До 80-ых специалисты в области ИИ склонны были считать проблему порождения достаточно легкой. В самом деле, разве трудно взять к-л утверждение из некоторого речевого фрагмента, связать его с определениями, хранящимися отдельно, и произвести, например, следующее The big black block supports a green one . Это было под силу SHRDLU Винограда уже в 1970г. Если бы можно было ограничиться этими знаниями, то, на самом деле, не возникало бы проблем.

Но вариативность языка не давала такой возможности. Каким образом человек представляет грамматические знания, которые позволяют генератору использовать синтаксическую структуру предложения в целях cоздания соответствующего относительного предложения the green block thats supported by the big red one , a green one , а не a green block , а также вообще иметь представление о возможности таких относительных предложений и подобных замен.

Общие подходы к проблеме.

Трудно идентифицировать общие элементы в различных проектах исследования по порождению естественного языка. Напротив, в исследованиях по пониманию речи можно выделить несколько основных подходов к проблеме использование расширенных сетей переходов, семантические грамматики qv , рабочие системы, основанные на представлении концептуальной зависимости, процедурная семантика и многое другое.Исследование порождения не может дать подобной классификации, поскольку очень мало специалистов ставили эту проблему во главу угла. Большие исследовательские группы, полностью сконцентрировавшиеся на вопросе порождения естественного языка, начали создаваться в последние два года. Основная проблема состоит в отсутствии общего отправного пункта, конкретной основы для сравнения, что осложняет работу, не дает возможности для взаимопомощи между исследователями практически невозможно проверить свои эксперименты на системе другого разработчика.

Однако имеются общие нити, связывающие различные проекты похожие подходы, похожие представления, похожие грамматики.

Существует два вопроса, представляющих общий интерес. Первый вопрос как сопоставить многообразие форм в естественных языках, чтобы разработать их функциональное использование, ответить на вопрос, почему человек использует одну форму, а не другую, а далее формализовать этот процесс. Второй вопрос - это контроль над процессом порождения.Что определяет выбор говорящего в данной языковой ситуации? Как человек организовывает и представляет промежуточные результаты? Какими знаниями о зависимостях между вариантами выбора должна обладать система? Как представлены эти зависимости и как они могут влиять на алгоритмы управления? Ответы на поставленные вопросы будут рассмотрены в этой статье.

Контроль над постепенной обработкой сообщения.Среди порождающих систем, которые были специально построены для работы в основных системах, преобладающий подход контроля состоит в обработке сообщений как определенного вида программ.

Эти сообщения не просто выражения, чьи контекст и форма изоморфны по отношению к конечному тексту. Сообщения могут быть закодированы на компьютерном языке. Их нельзя просто перевести.Конечно, при самой простой обработке порождения, перевода было бы достаточно как почти во всех существующих ЭС , но в обработке, которая сосредоточена на порождении текстов на естественном языке, отношения и содержание в сообщении лучше всего просматриваются в виде команд для достижения определенного эффекта лингвистическими средствами.

Оценка происходит при постепенной обработке от внешних команд к внутренним. Эта методика контроля естественна для разработчиков систем, так как она имитирует стиль языков программирования, которые они используют. Наиболее общие сообщения сегодня не создаются планировщиком, а являются просто структурами данных, которые извлекаются из основной программы и которым генератор дает особую интерпретацию.Подобная практика распространена в программах, которым необходимо объяснять свои рассуждения, заключенные в доказательстве дедуктивным методом исчисления предиката.

Ниже приводится такого рода доказательство.На входе Line 1 premis Exists x barber x and Forall y shaves x,y iff not.shaves y,y l Line 2 existential instantiation 1 barber g and Forall y shaves g,y iff not.shaves y,y Line 3 conjunction reduction 2 Forall y shaves g,y iff not.shaves y,y Line 4 universal instantiation 3 shaves g,g iff not.shaves g,g Line 5 tautology 4 shaves g,g and not.shaves g,g Line 6 conditionalization 5,1 Exists x barber x and Forall y shaves x,y iff not.shaves y,y implies shave g,g and not.shaves g,g Line 7 reductio-ad-absurdum 6 not Exists x barber x and Forall y shaves x,y iff not.shaves y,y На выходе Assume that there is some barber who shaves everyone who doesnt shave himself and no one else . Call him Giuseppe.

Now, anyone who doesnt shave himself would be shaved by Giuseppe.This would include Guiseppe himself.

That is, he would shave himself, if and only if he did not shave himself, which is a conradiction. Therefore it is false, there is no such barber. Модель дает объяснение действиям автора доказательства в выборе, какое правило применять, например, что цель правой части условия в первой строке наложить ограничение на переменную Y Кто не бреет себя . Это дает право воспринимать доказательство особым образом.Эти действия, однако, нигде в доказательстве которое было единственным входом в программу не появляется.

Они только предполагаются и, таким образом, имеют силу только для нескольких примеров доказательств, произведенных естественным дедуктивным методом. Недостаток информации в сообщениях основной программы - постоянная проблема в работе с порождением текстов.Специалисты по вычислительной лингвистике вынуждены вчитываться в структуры данных основных программ, потому что последние уже не включают те виды риторических команд, которые необходимы генератору, если следовать синтаксическим конструкциям языка, которые использует человек. Без дополнительной информации связность произносимого - особенно для длинных текстов - будет зависеть от того, насколько непротиворечиво и полно авторы основных программ представили информацию каждый раз, когда генератор встречает к-л символ, ему ничего не остается как обрабатывать его как посылку или как условие одним и тем же способом, если он встречает их в одинаковом контексте.

Если поддерживается непротиворечивость, проектировщик может восполнять неточности, усовершенствуя структуры данных, как только они оказываются внутри лингвистического компонента.

Средства, направленные на достижение беглости и преднамеренной детализации формы, объясняют использование фразовых словарей и промежуточного лингвистического представления. Простой пример показывает, почему это необходимо.Рассмотрим логическую формулу, которую программа обычно использовала бы внутренне. В этом примере обработка проводится тем же методом, что описан выше. Пример представляет из себя наиболее общий вид сообщения выражение прямо из модели основной программы система доказательства естественным дедуктивным методом , которому теперь дается особая интерпретация, так как это выражение служит для анализа текста. exists x and barber x forall y if-and-only-if shaves x,y not shaves y, y В этой формуле генератор одновременно сопоставляется с выбором реализации. Должно ли навешивание кванторов выражаться буквально Существует такой X, что , или должно быть свернутым внутри основной части как определяющая информация относительно реализации переменных some barber ? Должно ли условие if-and-only-if реализовываться буквально как конъюнкция подчинения или может быть интерпретировано как ограничение диапазона переменной? Утверждение типа barber x , по-видимому, всегда должно декодироваться и преобразовываться в детальное описание переменной.

Остальное реализуется независимым образом, однако, после тщательного обдумывания.

Объекты, которые заполняют мозг основной программы, в данном случае - логические связки, предикаты, и переменные, полностью связаны со словами и грамматическими конструкциями, которые подлежат обработке специальными процедурами процедурами знаний поддерживаемыми внутри генератора.

Эти процедуры - эквивалент словаря в понимающей системе.

– Конец работы –

Используемые теги: Искусственный, интеллект0.05

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Искусственный интеллект

Что будем делать с полученным материалом:

Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Еще рефераты, курсовые, дипломные работы на эту тему:

Мозг человека и искусственный интеллект
На сайте allrefs.net читайте: "Мозг человека и искусственный интеллект"

Сознание и искусственный интеллект
В таком стремительном развитии есть что-то почти пугающее. Уже сейчас машины способны решать различные задачи, ранее являвшиеся исключительной… Или когда с помощью таких устройств мы копаем ямы или сносим непригодные… В конце концов, именно этой способности мы обязаны тому, что человеку удалось преодолеть его физические ограничения и…

Искусственный интеллект
На сайте allrefs.net читайте: "Цель преподавания дисциплины искусственный интеллект"

Искусственный интеллект
Конечно, междисциплинарность тоже имеет свою цену. Химики, биологи, специалисты в области вычислительных наук и многие другие изучают различные… Основными методами изучения искусственной жизни являются синтез искусственных… То что объединяет исследователей в области искусственной жизни ИЖ - это методы, в отличие от их целей.

Искусственный интеллект и теоретические вопросы психологии
Автором этой книги является Тихомиров О.К известный ученый, который в своих трудах описал различные подходы к изучению искусственного интеллекта. Книга, которую написал Олег Константинович называется «Искусственный интеллект… Основная тема этой книги рассказать что же такое искусственный интеллект ,показать его с разных подходов:…

Искусственный интеллект
Терпеливо продвигаясь вперед в своем нелегком труде, исследовате- ли, работающие в области искусственного интеллекта ИИ, обнаружили, что вступили в… И тогда многие исследователи пришли к выводу, что пожалуй самая трудная… Здесь, как в притче о слепцах, пытавшихся описывать слона, пытается придерживаться своего заветного…

Мышление и искусственный интеллект
Печальная ирония факта некоторые люди отличаются от мыслящих машин только тем, что уже давно ни над чем не задумываются Феликс Кривин. Введение Область науки, называемая искусственный интеллект ИИ, занимается… Исследования в области искусственного интеллекта вооружили нас новым средством для изучения этих вопросов компьютером.…

Философское введение в "Основы построения систем искусственного интеллекта"
Т.е. как минимум мы не будем заниматься проблемами походки, питания, дыхания, пищеварения и пр. Вот как ковш экскаватора имитирует руку с лопаткой,… Такой себе homunculus Осталось выяснить, что такое сам интеллект. Большой… Кибернетика анализирует М. в связи с задачей моделирования некоторых мыслительных функций". Ну и для полноты картины:…

Особенности адаптации детей с нарушениями интеллекта
По структуре клинической картины выделяют неосложненные и осложненные формы умственной отсталости. Осложненные формы обусловлены сочетанием… Может иметь место также более выраженная степень недоразвития или повреждения… Вторая группа — патология внутриутробного развития (воздействия инфекций, интоксикаций, травм). Третья группа —…

КИБЕРНЕТИКА И СОЗНАНИЕ. ПРОБЛЕМА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
На сайте allrefs.net читайте: "КИБЕРНЕТИКА И СОЗНАНИЕ. ПРОБЛЕМА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА"

0.032
Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • По категориям
  • По работам
  • Переплетение интеллекта и чувств Как говорится: "От греха подальше", ибо, как ни печально, но "нельзя долго глядеться в бездну, иначе бездна отразится в тебе". Другие же,… Правда, колебание в одной точке не дает представление о всем круге. А начавший… Узелком, завязанным на интересе к индивидуальности Фридриха Ницше, стал вечер, посвященный 155-летию со дня рождения…
  • Про Интеллект. Временная иерархическая память На сайте allrefs.net читайте: "Про Интеллект. Временная иерархическая память"
  • Вербальный фактор интеллекта Отдельные (тесты) субтесты сведены в батарею тестов, что позволяет сразу оценить уровень развития различных сторон интеллекта: вербальных… Для нормальной мыслительной работы одним людям необходимо видеть или… В интеллектуальном развитии он выделил четыре стадии: Сенсомоторная стадия — младенчество. Когда ребенок осуществляет…
  • Особенности графических навыков у младших школьников с нарушением интеллекта Отмечается, что графические навыки в младшем школьном возрасте вырабатываются в процессе длительных упражнений. Особенно важна проблема формирования графических навыков у младших школьников,… Актуальность темы исследования исходит из того, что, письмо, являясь «базой» всего дальнейшего обучения, вызывает…
  • Интеллект и ЭВМ Автор не случайно выбрал эту весьма обширную проблему.Он имеет многолетний опыт работы с компьютерными системами - имитаторами работы человеческого… Машина, обладающая достаточным объемом фактических данных из истории, могла… Оказалось, что прежде всего необходимо понять механизмы процесса обучения, природу языка и чувственного…