Форматы полнотекстовых документов. Модель документа

Понятие модель документа охватывает аспекты создания, преобразования, хранения, поиска, передачи и отображения документов. Принято рассматривать структуру документа в двух аспектах: логическом (содержание) и физическом (макет).

Логическая структура определяет составные компоненты и их соотношения в понятиях, отвечающих взгляду на документы как смысловые структуры. Например, к основным смысловым компонентам относятся: авторские данные, аннотация, оглавление, главы, разделы, параграфы, рисунки, сноски. К базовым понятиям структуры документа относятся: обязательность/необязательность элемента, уникальность или повторяемость, вхождение нижестоящих элементов в вышестоящие по принципу И (оба типа данных могут входить в элемент) либо ИЛИ (только какой-либо один из типов данных может или должен входить
в элемент).

Макетная структура содержит описание документа в терминах физических единиц – страниц, полос, колонок, колонтитулов, рамок для рисунков, шрифтов, стилей и пр.

Подходы к моделированию документов опираются на два стандарта – ISO 8613 (ODA – Office Document Architecture – архитектура управленческой документации) и ISO 8879 (SGML – Standard Generalized Markup Language – стандартный обобщенный язык разметки).

Документ в ODA представлен в виде профиля и собственно документа, организованных в форме древовидной структуры. Профиль содержит информацию о документе в целом и его прохождении; формальные признаки – дата составления, вид, регистрационный номер и т.д.

Собственно документ содержит текст и сведения о его структуре и стиле, а именно:

- структуру документа – заглавие, параграфы, оглавление и т.п. (логическая структура), а также абзацы, расположение текста, шрифты (физическая структура);

- архитектуру содержания – набор графических элементов, выделение определенных слов, строк и т.п.;

- коммуникативный формат – способы кодирования объектов, признаков и содержания документов.