Виды систем ввода документов

Помимо технологических аспектов, о которых мы говорили выше, существует также специфика, связанная с масштабом использования технологии ввода бумажных документов. Действительно, когда говорят о домашних или о персональных системах ввода документов, то обычно подразумевают именно распознавание неформализованных документов, при незначительном количестве ввода документов за единицу времени. В данном случае на первое место выходит именно технология OCR.

Напротив, ввод формализованных документов - это технология, которая обычно используется в организациях и имеет массовый характер. В данном случае наряду с распознаванием текстов встает масса технологических проблем: организация поточного (массового) сканирования, распределенная обработка, встраивание решения в корпоративные системы документооборота и т.д. Технологии, обеспечивающие решение данного набора задач, называют технологиями Data Capture.

Data Capture (дословно "захват данных") - это комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним.

Из отечественных компаний на рынке ввода и распознавания документов и форм наиболее активно работают фирмы ABBYY и Cognitive Technologies.

Системы ввода документов с учетом масштаба технологии можно разделить на четыре вида:

 


Р и с у н о к 8.9 - Классификация программ для перевода документов в электронный вид

 

Продукты для персонального ввода неформализованных документов. В этой области следует, прежде всего выделить продукт FineReader.

Программу отличает высокая точность распознавания и оформления документа; большое количество языков распознавания (177 в версии FineReader 7.0), интеграция с Microsoft Office Word 2003.

Продукты для промышленного ввода документов

Программно-аппаратные решения на основе стандартных домашних сканеров не обеспечивают производительности, необходимой корпоративным заказчикам, которым нужны так называемые технологии потокового сканирования. Только специализированные программные комплексы в совокупности с высокопроизводительным офисным оборудованием позволяют без задержек распространять по организации электронные версии документов, поступивших в бумажном виде.

Единственной зарубежной системой промышленного ввода документов, представленной на российском рынке, является система Ascent Capture - программа, предназначенная для потоковой обработки сканируемых документов и извлечения данных. Максимальный эффект от применения этой системы отмечается при объемах поступления новых документов - от 1000 до 100 000 страниц в сутки.

Среди российских разработок промышленного ввода документов можно выделить систему электронного архива на базе ЕВФРАТ компании Cognitive Technologies. Программа имеет встроенную OCR-систему и обеспечивает потоковое сканирование и распознавание неформализованных документов. Система позволяет автоматизировать сканирование и распознавание бумажных документов, ввод и классификацию документов из разных источников.