Информационно поисковые технологии для электронного делопроизводства

Информационно поисковые технологии для электронного делопроизводства. Информационно поисковые технологии представлены в рассматриваемом комплексе подсистемой поиска и воспроизведения.

В системе предусмотрены развитые возможности индексирования, хранения и поиска документов, включая полнотекстовое индексирование рис. 2. Индексирование документов означает реквизитную индексацию ручное управление структурами хранения документов настройку состава полей, типа и длины контрольных карточек документа в архиве автоматическую полнотекстовую индексацию документов автоматическое распознавание формата файла электронного документа индексацию текста документа сразу при его вводе морфологический анализ индексируемых текстов для приведения помещаемых в индекс слов к канонической форме нормализация текста в индексе наличие стоп словарей при полнотекстовой индексации и обеспечение их настройки выделение из текста сложных составных терминов и понятий поддержку и настройку словарей и тезауруса технологию реквизитной разметки документов настройку набора реквизитов возможность различных режимов реквизитной разметки документов ручной, автоматический, полуавтоматический интеграцию с произвольными программами создания, просмотра и изменения электронных документов.

Хранение документов включает в себя возможность работы с библиотеками магнитооптических дисков, магнитных лент, компакт дисков для хранения больших объемов информации управление внешними носителями хранение электронных документов произвольного формата, аннотированных текстов, по которым производится поиск хранения в системе для каждой страницы как исходного изображения, так и распознанного текста.

Поиск предусматривает наличие стандартного языка запросов к БД реквизитный поиск документов полнотекстовый поиск, точность поиска поиск по именам документов и аннотациям формирование сложных запросов с использованием логических операций контекстный поиск и меру близости слов при поиске адекватность результата поиска запросу морфологический анализ при построении запроса возможность работы с системой удаленных пользователей.

Поиск может быть составным и включать несколько поисковых атрибутов из перечисленных выше типов.

Результатом поиска служат образ найденных документов и содержание аннотаций, построенных в процессе индексирования или его ручного атрибутирования. Найденные образы могут быть распечатаны или переданы по корпоративной сети для просмотра с другого рабочего места. Запрос строится путем заполнения шаблона ключевыми словами, содержание которых пользователь может задавать произвольно.

Поиск документов по запросу осуществляется на двух уровнях сначала происходит поиск в справочнике данных, а по ссылкам ищется при задании пользователем соответствующих атрибутов сам документ. Как правило, хранение документов осуществляется автономно из за больших объемов архива и необходимости использования оптических накопителей информации. Такая архитектура, кроме всего, позволяет минимизировать время, затрачиваемое на физический доступ к документам в режиме множественных запросов, а также обеспечивает доступ данных из неоднородных гетерогенных сетей.

Следует отметить, что образ документа может храниться как в текстовом, так и в графическом формате. В последнем случае он, как правило, является результатом использования OCR технологий. 3.1