Сканирование документов

Несмотря на возрастание доли документов, передаваемой в электронной форме, в ближайшие годы в делопроизводстве сохранится значительный процент бумажных документов, ввод которых в систему полнотекстового хранения и электронного документооборота требует их сканирования.

Операция сканирования, т.е. перевода документа из бумажной в электронную форму, остаётся одной из самых трудоёмких и требующих тщательной проработки.

Различают текущее и ретроспективное сканирование. В первом случае сканируются документы текущего делопроизводства, во втором – документы, отложившиеся за прошедшие годы. Чаще всего ретроспективное сканирование осуществляется для перевода в электронную форму документов постоянного и долговременного сроков хранения.

Ретроспективное сканирование документов целесообразно в следующих случаях:

§ Частое обращение к документам прошлых лет (несколько раз в год);

§ Преобладание тематических запросов, требующих для своего выполнения просмотра текстов документов.

§ Высокие требования к оперативности выполнения запроса.

§ Необходимость вывода из обращения для обеспечения сохранности оригиналов постоянно используемых ценных документов.

§ Потребность в организации удалённого доступа к документам (филиалов, руководства, находящегося в командировке и т.п.), например через Internet.

При организации сканирования необходимо учитывать следующие параметры:

§ определить объём имеющихся материалов, предполагаемое их ежегодное увеличение;

§ формат бумаги, процентное соотношение документов формата А4, А3 и выше;

§ качество бумаги (стандартная, тонкая, ветхая и т.п.);

§ одно и двусторонние размещение текста;

§ наличие фотографий, цветных оригиналов, негативов и др.

§ переплёт, возможность расшивки документов для сканирования.

§ необходимость повторного переплёта, возможность замены дорогостоящего переплёта вакуумной упаковкой.

Исходя из объёма и процентного соотношения вышеперечисленных типов документов выбирается соответствующая сканирующая техника.[39]

Следующий этап перевода документов в электронную форму – распознавание текстов документов. При собственно сканировании в компьютер поступает изображение страницы документа, а программы распознавания (OCR - Optical Character Recognition) преобразуют изображение в текст, на основе которого в дальнейшем производится полнотекстовый поиск информации. Наиболее распространённые программы OCR – FineReader фирмы ABBYY и разработка Cognitive Technologies – Cuneform (в настоящее время – версии FineReader 5.0 и Сuneiform 2000 R2 соответственно). При необходимости копия распознанного текста может быть загружена в текстовый редактор типа MS Word и использована для подготовки других документов.

В большинстве случаев сохраняется как изображение каждой страницы документа, так и распознанный текст. Хотя размер изображения, занимаемый им в памяти компьютера, на порядок превышает размер страницы текста, это необходимо, так как документ может содержать графические элементы – резолюции, пометы, печати и др., которые отсутствуют в распознанном тексте. Кроме того, следует учитывать, что несмотря на значительное усовершенствование программ распознавания в последние годы, тем не менее пока что при переводе документов в электронную форму возможны ошибки. Их устранение требует дополнительной операции – считки документа, самой трудоёмкой и сразу же на порядок повышающей трудоёмкость и стоимость всего процесса сканирования. Поэтому обычно считку используют только при вводе наиболее важных документов или тех, распознавание которых затруднено. Наличие 2-3 ошибок распознавания на лист как правило не влияет на читаемость документа, а возможность в любой момент обратиться к изображению оригинала снимает возможные проблемы.

Параллельно со сканированием на каждый документ заводится регистрационная карточка, к которой прикрепляются полученные изображение и распознанный текст документа.