рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S)

Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S) - раздел Лингвистика, В.П. Захаров Корпусная лингвистика [Tag="acys.*"] (...) ...

[tag="ACYS.*"]

(...)

(...)

Рис. 3. Образец выдачи в Чешском национальном корпусе.

Collocation Sampler

 

Type in your word:

Select a significance score to be calculated:

Mutual Information
T-score

To get collocations, press this button:

Note that output from this demo facility will be restricted to 100 collocates. These
will be the statistically most significant ones according to the score you have selected.

Collocate Corpus Freq Joint Freq Significance
the 5.540490
erm 4.294184
million 4.182154
christi 4.122786
spoken 4.104865
er 3.798765
a 3.724491
habeas 3.463933
word 3.199393
mm 3.102023
software 2.980231
based 2.874020

Рис. 4. Интерфейс для вычисления коэффициента совместной встречаемости и образец выдачи в корпусе COBUILD

 

 

Приложение 2

Метаданные текстов в «Национальном корпусе
русского языка» (НКРЯ)

Метаописание в НКРЯ состоит из двух блоков, первый из которых включает следующие признаки:

1) Автор текста: имя, пол, дата рождения (или примерный возраст);

2) Название текста;

3) Время создания текста (точно или приблизительно);

4) Объем текста: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.

Второй блок содержит параметры метаописания трех основных массивов текстов корпуса: а) художественных текстов; б) нехудо-жественных текстов; в) драматургии.

Для художественных текстов предлагаются следующие параметры:

1) Жанр текста: нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира;

2) Тип текста: автобиографическая проза, ассоциативная проза, очерк, литературное письмо, повесть, пьеса, рассказ, роман, сказка, эссе;

3) Хронотоп текста (приблизительное указание на место и время описываемых в тексте событий; включается также помета «хронотоп не определен»). Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XVIII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е; Россия/СССР – Европа 1960–1980-е; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Америка: 1960–1980-е; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и некоторые другие.

Для нехудожественных текстов установлены следующие параметры:

1) Тип текста: автобиография, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, объявление, отзыв, отчет, очерк, письмо, проповедь, резюме, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра).

2) Тематика текста: (открытый список в 5 подмножествах): бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом; здоровье и медицина; досуг; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

Помимо названной, в «Национальном корпусе» существует еще служебная или «имплицитная» метаразметка, которая не выносится на открытый доступ для широкого пользователя. К этой метаразметке относятся:

1) «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21);

2) аудитория-возраст;

3) аудитория-уровень образования;

4) аудитория-размер.

 

– Конец работы –

Эта тема принадлежит разделу:

В.П. Захаров Корпусная лингвистика

Филологический факультет... Кафедра математической лингвистики... В П Захаров Корпусная лингвистика...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S)

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Захаров В.П.
З-38Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с.   Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – новог

ББК 81.1
      ã В.П. Захаров, 2005

Репрезентативность
Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количест

Разметка
Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингв

Технология создания корпусов
Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов. 1. Определение перечня источников. 2. Оцифровка текстов (преобразование в компьютерну

Автоматическая разметка
Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место зани

Исправление ошибок и снятие неоднозначности
Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения).

Форматы данных и стандартизация
Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицирован

Корпусные менеджеры
Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необ

Пользователи и способы использования корпусов
Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую о

Типы корпусов
Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного период

Терминология
Терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в

Корпусы в сети Интернет
Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Lingui

Жанр текста
нежанровая проза

Тип текста
автобиографическая проза

Фрагмент словаря-тезауруса по корпусной лингвистике
В структуре словарных статей выделяются поля, которые помечены следующими метками: Term –англоязычный термин;Trans –русскоязычный термин; Def –опр

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги