Особенности работы с текстовыми базами данных.

Текстовыми базами данных называются базы данных, объектами хранения в которых являются тексты. Под текстом понимаются неструктурированные данные, построенные из строк.

Проблемно ориентированные текстовые БД используются в разных областях медицины, юриспруденции, научно-технической информации, делопроизводства и др. Они хранят и обрабатывают огромные массивы постоянно увеличивающейся текстовой информации.

Системы обработки текстовой информации отличаются от систем обработки структурированных данных, имеющих фиксированный формат записи, в первую очередь типами хранимых данных.

Текстовые БД могут содержать различные тексты и документы, например тексты законов, библиографические описания, книги, рефераты, статьи и др.

Пакеты прикладных программ, предназначенные для ввода, обработки, поиска и обновления текстов, называют информационно-поисковой системой (ИПС).

В отличие от систем обработки структурированных данных ИПС, предназначенные для работы с текстом, имеют более гибкую стратегию поиска, т.е. поиск может проводиться по тексту либо по заданному описанию интересующей нас темы, а найденные документы должны частично либо полностью соответствовать сформулированному запросу. При поиске же структурированной информации, осуществляемом СУБД, запрос, принимаемый к исполнению, может быть сформулирован только в терминах определенного формального языка, а данные, выдаваемые на запрос при структурированном поиске, полностью соответствуют сформулированному запросу.

Перечень задач концептуального проектирования текстовой БД:

1. Анализ информационных интересов пользователей к данной предметной области.

2. Определение источников формирования БД.

3. Выбор архитектуры БД.

4. Разработка языка описания документов.

К анализу информационных интересов пользователей относится изучение информационных потребностей, информационных запросов, собственно потребителей информации. При анализе информационных интересов используются следующие методы:

– Социологические. Основываются на анкетировании и интервьюировании.

– Наукометрические. Основываются на анализе информационных потоков, которые представляют собой формальные каналы научных коммуникаций: отчеты по НИР, журналы, книги, каталоги, реферативные журналы и обзоры, связь с автоматизированными информационными системами и т.д.

– Математико-статистические. К этим методам относятся методы ранговых распределений, методы построения выборочных совокупностей, корреляционный анализ, факторный анализ.

Все методы могут быть взаимосвязаны в единую методику, создание которой определяется предметной областью и интеллектом проектировщика. В конечном итоге вырабатывается механизм тематического распределения информации.

На основе анализа запросов и анализа информационных потоков принимается решение об источниках формирования БД, при этом рассматриваются следующие варианты:

1. Проектирование политематической текстовой БД из имеющихся БД.

2. Проектирование текстовой БД из первичных документов.

Архитектура БД выбирается исходя из интересов пользователей, вида документа, объема памяти ЭВМ.

Язык описания документа выбирается исходя из удобства интерфейса пользователя и приемлемой стоимости поиска.

На примере информационной системы «Кодекс» рассмотрим устройство и особенности работы с текстовыми базами данных.

База данных системы «Кодекс» представляет собой электронную юридическую библиотеку, содержащую полные тексты законодательных и нормативных актов Российской Федерации, документов региональных органов государственной власти, международных соглашений и других правовых и информационных материалов.