Автоматизация процессов обработки

 

Развитие электронно-вычислительной техники, новых спосо­бов и каналов связи обеспечило переход к машинным способам обработки документа. Зарождение безбумажных информационных технологий – это не только очередная смена носителей информации (бумажных – на магнитные и оптические), но и возможность автоматизировать семантические процедуры идентификации, отбирать и преобразовывать информацию, мгновенно передавать ее потребителю на его рабочее место, обеспечивать дистанционный доступ к удаленным информационным массивам. Они получили название «ЗС-технологии», поскольку объединяют процессы коммуникации (communication), управления (control) и обработки (computation).

Семантический анализ текстов (выделение наиболее информативных фрагментов, значимых для поиска признаков), свертывание (сжатие) информации для представления ее в более компактном, удобном для поиска и предварительного ознакомления виде – трудно формализуемые, затратные и интеллектуально емкие процедуры. Поэтому компьютерная обработка документа на протяжении длительного времени продолжает оставаться на стадии экспериментальной разработки.

Основные изменения в организации процессов обработки связаны с переходом от автономной технологии к интегрированной. Это означает, что если при традиционной технологии подразделения, задействованные в циклах создания ресурса (обработки доку­ментов), могли работать достаточно автономно, то при автоматизированной технологии это невозможно и ненужно.

Новые компьютерные программы реорганизовали путь книги в процессе обработки. Раньше каждый из процессов выполнялся отдельным сотрудником.

В современном библиографирующем учреждении автоматизированное рабочее место предусматривает реализацию нескольких процессов обработки одним сотрудником.

о внедрения автоматизации в процессы обработки документов специалисты, реализующие их, в зависимости от вида деятельности назывались по-разному.

С внедрением форматов машиночитаемой каталогизации (MARC) понадобился специалист-универсал, владеющий разными процессами обработки документа, усложнились его функциональные обязанности, изменилась индивидуальная нагрузка. Новому специалисту необходимы знания всего технологического цикла, поскольку он является участником интеграционного процесса.

Интегрируемость – базовое понятие, включающее разные аспекты, разные уровни:

1. Интеграция внутренних процессов касается организации про­хождения потоков документов или сведений о них между отдельными функциональными модулями АИБС и соответственно между структурными подразделениями (комплектование, обработка, хранение фондов, обслуживание, технологическое обеспечение). Модульная структура интегрированной технологии позволяет внедрять отдельные подсистемы в последовательности, диктуемой конкретной технологической ситуацией в библиографирующем учреждении.

2. Интеграция внешняя подразумевает организацию процессов обмена документами или данными о них между различными библиотеками и информационными центрами по взаимосогласованным технологиям, условиям, правилам, программно-лингвистическому и техническому обеспечению.

 

Процесс Результат Название специалиста
1. Составление библиографического описания Библиографическое описание Библиограф
2. Составление заголовка Заголовок
3. Систематизация Классификационный индекс Систематизатор
4. Предметизация Предметная рубрика Предметизатор
5. Координатное индексирование Ключевые слова, де­скриптор Индексатор
6. Составление аннотации Аннотация Референт
7. Составление реферата Реферат Референт
8. Перевод элементов записи на другой язык, транскрипция, транслите­рация Перевод Переводчик

 

Организационно-технологические изменения в функциональных процессах происходят при внедрении интегрированной обработки документов, в основе которой лежит многократное преобразование и использование данных при одноразовом вводе; представление их для разных форм и целей в новом виде на базе общих массивов.

Реализация принципа однократного ввода элементов библиографической записи и многократного, многоцелевого их использования дает эффект экономии всех видов затрат на информационные процессы.

Принцип одноразовой обработки и многократного и много­аспектного использования данных и локальная сетевая технология заставляют отходить от традиционной организации работы по обработке и доступу к документам.

Расширяется заимствование однотипных элементов на разных участках вместо прежнего дублирования операций, происходит более четкий учет документального потока (усиление функций диспетчеризации при обработке документов и их движении в библио­теке). Возникает необходимость формирования новых структурных подразделений, поддерживающих эти процессы (служб авторитетного контроля, поддержки и развития форматов, технологического контроля и др.).

Информационные технологии, прогрессивные средства и методы обработки и передачи информации обеспечивают доступность и эффективное использование накопленных обществом информационных ресурсов, определяют темпы и масштабы информатизации как глобальной тенденции общественного развития.

Сетевые технологии создают условия для ликвидации информационных «провинций», для реализации конституционных прав граждан на свободный доступ к информации.

Основа интегрированной информационной технологии – электронный каталог – общая информационная база данных, доступная в интерактивном режиме. Его полноценное функционирование возможно только при наличии форматов – правил ввода, исполь­зования и передачи данных в машиночитаемой форме.

Лидер данного направления деятельности – Библиотека Конгресса США. В 1965–1966 гг. она разработала первый в мире пилотный проект формата машиночитаемой каталогизации, то есть MARC.

Термин «MARC» (Machine Readable Catalogue or Cataloguing – Машиночитаемый каталог или каталогизация) не совсем точен, поскольку данный формат не является ни каким-либо видом каталога, ни методом каталогизации. В действительности это термин, который используется для обозначения процесса маркировки любой части библиографической записи в целях ее компьютерной обработки.

Несмотря на то что формат MARC первоначально был разработан для каталогизационной обработки документов в библиотеках, впоследствии его концепция нашла широкое применение в различных областях системы документальных коммуникаций, поскольку обеспечила удобный способ обработки, хранения библиографических данных и обмен ими. И в этом заслуга библиотек.

ГПНТБ России перевела на русский язык целую систему аме­риканских форматов USMARC (для библиографических, авторитетных классификационных данных, для данных о фондах и для общественной информации).

Несмотря на сотрудничество стран в этой области из-за раз­личий в национальных правилах каталогизации разными странами были разработаны собственные версии формата MARC: UKMARC, INTERMARC, CANMARC и т. д.

Для преодоления несовместимости форматов рабочей группой ИФЛА было принято решение разработать международный формат UNIMARC, который впервые опубликовали в 1977 году. Основным назначением UNIMARC является обеспечение международ­ного обмена библиографическими данными в машиночитаемой форме между национальными библиографическими агентствами. Формат может использоваться как модель для разработки новых машиночитаемых форматов.

Воспользовавшись этим, российские специалисты разработали на основе UNIMARC систему национальных форматов RUSMARC. UNIMARC распространяется на монографии, сериальные издания, картографические документы, ноты, звукозаписи, графику, проекционные и видеоматериалы с резервированием полей для компьютерных файлов.

В 2000 году впервые был представлен формат UNIMARC для классификационных данных.

Формат взаимосвязан с Международными стандартными правилами библиографического описания, с ISO 2709–1981 «Документация. Формат для обмена библиографической информацией на магнитной ленте», с форматом авторитетных записей UNIMARC и другими международными документами.

 

2.4.1. Система форматов RUSMARC. Общая характеристика

В России технология создания машиночитаемой библиографической записи с использованием специального формата представления ее элементов во многом связана с разработкой системы форматов RUSMARC. Эти форматы разработаны по заказу Министерства культуры РФ в рамках программы «Создание общероссийской информационно-библиотечной компьютерной сети – ЛИБНЕТ» под эгидой Российской библиотечной ассоциации.

В настоящее время систему российских форматов представляют:

1. Российский коммуникативный формат представления библиографических записей для книг и сериальных изданий (Российская версия UNIMARC). Основное его назначение – обеспечение возможности обмена готовыми БЗ между библиографирующими учреждениями России. Согласно приказу Министерства культуры РФ № 45 от 25.01.1998, данный формат обязателен для библиотек Министерства культуры РФ, а также рекомендован заинтересованным министерствам и ведомствам к использованию в подведомственных организациях.

2. Российский коммуникативный формат представления авторитетных/нормативных записей. Его назначение – обеспечение обмена авторитетными, а также ссылочными и справочными записями между библиографирующими учреждениями России.

3. Российский формат машиночитаемой каталогизации (RUSMARC). Он предназначен для отражения рекомендаций по наполнению машиночитаемых записей в библиографических базах данных в целях их соответствия правилам составления библиогра­фического описания, методике индексирования и коммуникативным форматам. Согласно приказу Министерства культуры РФ № 139 от 29.02.2000, формат машиночитаемой каталогизации обязателен при разработке и внедрении автоматизированных библиотечно-инфор- мационных систем для библиотек Министерства культуры РФ.

В формате RUSMARC создан и распространен на CD Авторитетный файл предметных рубрик РНБ.

Готовятся к изданию форматы для представления классификационных и холдинговых данных.

К настоящему времени система форматов RUSMARC соответствует системе основных международных форматов.

 

2.4.2. Российский формат машиночитаемой каталогизации (RUSMARC)

Библиографическая запись, созданная в формате MARC, значительно больше по объему немашиночитаемой записи, благодаря дополнительным сведениям и специальных символов.

Библиографическая запись, выполненная в Российском формате машиночитаемой каталогизации (RUSMARC), состоит из трех компонентов:

1) маркера,

2) справочника,

3) полей данных.

Маркер записи – обязательная область, располагается в на­чале каждой машиночитаемой библиографической записи. Она содержит общие данные, используемые для обработки записей, и не содержит библиографических сведений о документе. Маркер со­держит код записи, равный 24 символам. Этот код определяет:

1) длину записи,

2) статус записи,

3) тип записи,

4) библиографический уровень,

5) иерархический уровень,

6) дополнительное определение записи (степень полноты и т. д.).

Справочник следует за маркером. Он определяет наличие и по­следовательность полей в записи. Содержит код записи, равный 12 символам для каждого поля и включает три характеристики поля:

1) метку поля – 3-цифровой символ для каждого поля данных;

2) длину каждого поля – 4 символа;

3) позиции начального символа, относящегося к первому полю данных — 5 символов.

Поля данных распределены по десяти блокам:

— Блок идентификации
Блок кодированной информации  
Блок описательной информации  
Блок примечаний  
Блок связи записей  
Блок взаимосвязанных заглавий  
Блок анализа содержания  
Блок интеллектуальной ответственности  
Блок международного использования  
Блок локального использования  
         

В каждый блок входит разное количество полей (см. приложение 1).

Поле – основной элемент любого машиночитаемого формата, содержит трехсимвольное цифровое обозначение данных, используемое для идентификации поля (метку) и описание формальных или содержательных признаков документа. Это определенная строка символов, идентифицированная меткой, содержащая одно или более подполей. Поле – часть записи, соответствующая одной области библиографического описания или какому-либо другому элементу библиографической записи (одной предметной рубрике, одному классификационному индексу, одному шифру хранения и т. д.).

Поля бывают двух видов: фиксированной и переменной длины.

Фиксированное поле – поле данных фиксированной длины в фиксированном формате.

Переменное поле – поле данных переменной длины. Оно может состоять из одного и более элементов данных или подполей. Длина полей в символах определяется количеством символов, не­обходимых для текстовых данных, индикаторов, идентификаторов подполей и разделителя поля.

Поля данных переменной длины следуют сразу за справочником и содержат библиографические данные (в отличие от данных общей обработки, содержащихся в маркере). Переменные поля имеют метки от 01 до 999. За ними следуют индикаторы.

 

Перечень обязательных полей:

Маркер записи

001 Идентификатор записи

010 Международный стандартный номер книги (ISBN) – при наличии данных

011 Международный стандартный номер сериального из­дания (ISSN) – при наличии данных

020 Номер документа в национальной библиографии – при наличии данных

021 Номер государственной регистрации – при наличии данных

100 Данные общей обработки

101 Язык документа

105 Поле кодированных данных: текстовые материалы, монографические – для монографических изданий

110 Поле кодированных данных: сериальные издания – для сериальных изданий

200 Заглавие и сведения об ответственности

205 Сведения об издании – при наличии данных

210 Публикация, распространение и др.

215 Количественная характеристика

225 Серия – при наличии данных

4 – Блок связи записей – в случае иерархической структуры

500 Унифицированное заглавие – при наличии данных

6 – Блок анализа содержания — обязательным является наличие хотя бы одного из полей 6–блока

700 Имя лица – первичная интеллектуальная ответственность – при наличии данных

710 Наименование организации – первичная интеллектуальная ответственность – при наличии данных

720 Родовое имя — первичная интеллектуальная ответственность – при наличии данных

801 Источник записи

Все остальные поля являются факультативными.

Индикатор – символ цифровой или буквенный, связанный с переменным полем, представляющий дополнительную информацию о содержании поля, взаимосвязи между данным полем и другими полями в записи или об указаниях компьютеру оперировать данными определенным образом. В RUSMARC установлено две позиции индикаторов, то есть после метки поля расположено 2 индикатора, каждый из которых может иметь цифровое обозначение (0, 1 или 2) либо знак «#», если значение индикатора не определено. Знак хэш «#» используется для обозначения пробела. Например: 801#0; 801#1; 801#2; 899##

Вслед за указанием метки и индикатора поля следуют обозначения подполей, из которых оно состоит.

Подполе – определенная единица информации в пределах поля. Ее также называют элементом данных. Это наименьшая единица библиографической записи, подлежащая точной идентификации. В переменном поле элемент данных идентифицируется идентификатором подполя. В маркере записи, справочнике и в подполях фиксированной длины элементы данных, состоящие из кодов, идентифицируются соответствующими позициями своих символов.

Идентификатор подполя — код, идентифицирующий отдельные подполя внутри переменного поля. Состоит из двух символов. Первый символ — разделитель, всегда один и тот же уникальный символ, установленный по ИСО 2709, второй символ — код подполя, который может быть цифровым или буквенным.

В формате RUSMARC в качестве первого символа идентификатора используется знак доллара «$». Рассмотрим для примера поле 215. В нем трижды указан знак доллара — это значит, что поле состоит из трех подполей: 215##$aM$cOJIMA-пpecc$d2001

Анализ машиночитаемой библиографической записи, созданной в формате RUSMARC в РНБ на книгу Е. В. Пчелова «Рюрико­вичи. История династии», дан в приложении 2.

 

000 01048 0#2200325# #450#

001 267800

005 20020705092208.0

010##$а5-224-03160-5S97000

021 ##$aRU$93194S2001 -6568

100##$а20020517 2001#### ##y0rusy0189 ####са

1010#$arus

102##$aRU

105##$aa###z###