Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.
Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).
Классификация корпусов
Признак | Типы корпусов |
Тип данных | Письменные Речевые Смешанные |
Язык текстов | Русский Английский и т.д. |
«Параллельность» | Одноязычные Двуязычные Многоязычные |
«Литературность», специфичность | Литературные Диалектные Разговорные Терминологические Смешанные |
Жанр | Литературные Фольклорные Драматургические Публицистические |
Доступность | Свободно доступные Коммерческие Закрытые |
Назначение | Исследовательские Иллюстративные |
Динамичность | Динамические (мониторные) Статические |
Разметка | Размеченные Неразмеченные |
Характер разметки | Морфологические Синтаксические Семантические Просодические и т.д. |
Объем текстов | Полнотекстовые «Фрагментнотекстовые» |
Хронологический аспект | Синхронические Диахронические |
«Общность» | Общие Одного писателя |
Структура | Центральные и архивные Ядерные и периферийные |