Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).


Классификация корпусов

Признак Типы корпусов
Тип данных Письменные Речевые Смешанные
Язык текстов Русский Английский и т.д.
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность», специфичность Литературные Диалектные Разговорные Терминологические Смешанные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Свободно доступные Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Характер разметки Морфологические Синтаксические Семантические Просодические и т.д.
Объем текстов Полнотекстовые «Фрагментнотекстовые»
Хронологический аспект Синхронические Диахронические
«Общность» Общие Одного писателя
Структура Центральные и архивные Ядерные и периферийные