Автоматическая разметка

Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче­ского анализа каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен­ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).