Знакомьтесь: автоматизированные ИПС

Используя закономерности рассеяния и старения информации, мы можем существенно ограничивать поток информации, с которой целесообразно знакомиться. Однако та часть потока информации, в которой с наибольшей вероятностью сосредоточены нужные нам сведения, все же содержит несметное множество документов. В этом множестве необходимо отобрать те документы, которые соответствуют нашим информационным потребностям.

Здесь мы сталкиваемся с проблемой информационного поиска – одной из важнейших проблем информатики Информационный поиск – это процесс отыскания в каком-то множестве документов тех, которые посвящены указанной в информационном запросе теме (предмету) или содержат необходимые потребителю факты, сведения.

Информационный поиск осуществляется при помощи информационно-поисковых систем (ИПС) и выполняется вручную или с использованием соответствующих средств механизации и автоматизации.

Информационно-поисковые системы могут быть реализованы посредством библиографической картотеки селектора, содержащего перфокарты с краевой или внутренней перфорацией, ЭВМ и т.д. Для применения ИПС необходима систематизация и классификация документов.

Классифицировать документы можно по отрасли науки, виду документа, автору или по другому признаку. Одной из самых распространенных классификаций в настоящее время является универсальная десятичная классификация (УДК), созданная на основе десятичной классификации М. Дьюи по инициативе бельгийских ученых Поля Отле и Анри Лафонтена. Все знания, накопленные человечеством, разбиты в ней на 10 классов: 0. Общий отдел; 1. Философия; 2 Религия; 3 Общественные науки; 4 Свободный отдел; 5 Математика. Естественные науки; 6 Прикладные знания. Медицина. Техника; 7 Спорт. Фотография. Зрелища; 8 Языкознание. Филология. Художественная литература. Литературоведение; 9 Краеведение. География. Биография. История.

Каждый из этих 10 классов делится на 10 подклассов, затем еще на десять и т.д. – классификация является иерархической (Иерархия – это такое отношение, при котором один класс является подклассом другого, более широкого). Для обозначения классов, подклассов в УДК применены арабские цифры, абсолютно однозначные для всех людей, независимо от их языка или алфавита. Эта классификация применяется более чем в 50 странах.

П. Отле и А. Лафонтен видели в УДК лишь средство для достижения совершенной системы организации знаний. Их основной идеей была гениальная догадка о необходимости упорядочения всемирной системы научной коммуникации. Эта идея и сегодня остается актуальной, поскольку цели, впервые сформулированные П. Отле на рубеже нашего века, и идеи, развивавшиеся им вплоть до середины 40-х годов, далеко еще не реализованы и ныне, а потребность в создании более совершенной системы научной коммуникации в человеческом обществе ощущается сейчас значительно острее, чем в прошлые десятилетия. Его почин в создании универсальной десятичной классификации послужил прочной основой для дальнейшей коллективной разработки этой классификации.

Наряду с УДК, в нашей стране широко используются библиотечно-библиографическая классификация (ББК), международная классификация изобретений (МКИ), классификаторы промышленной продукции и т.д.

Широкое распространение классификаций объясняется их удобством при информационном поиске. Простейшая поисковая система представляет собой каталог, организованный по алфавиту, УДК или по любой другой классификации. В этом случае поиск осуществляется в массиве самих документов, представленных в виде каталожных карточек. После нахождения нужной карточки в каталоге дальнейший поиск сводится к изъятию документа с полки, где он хранится. Кажется, все просто и удобно. Действительно, информационно-поисковые системы, организованные без применения каких-либо средств механизации поиска, оправдывали себя в течение длительного периода.

С возрастанием потоков информации резко увеличились и объемы каталогов. На поиск информации стало уходить значительно больше времени, чем прежде. Пока величина массива, в котором производился поиск, не превышала нескольких тысяч документов, мириться с увеличением времени поиска было еще можно. Когда же объем массивов стал измеряться десятками тысяч документов, а в настоящее время в крупных информационных органах такими цифрами измеряется только ежегодный прирост фондов, ручные методы поиска, оказались малопригодными.

Первые попытки уменьшить время поиска документов с помощью механизации этого процесса относятся к началу века, когда появились (1904 г.) карты с краевой перфорацией, положившие начало применению полумеханизированных ИПС. В 1915 г. американский ученый Г. Тейлор получил патент на способ поиска информации с помощью так называемых суперпозиционных перфокарт. Однако практическое применение эти перфокарты нашли только в 1939 г. С тех пор перфокарты заслужили добрую славу как верные помощники людей в поиске той или иной информации.

Уже в середине 50-х годов в СССР была практически осуществлена идея использования перфорационных вычислительных машин для поиска документальной информации.

Если на заре развития вычислительной техники для информационного поиска эффективнее было использовать людей, даже если для этого требовалось их все больше и больше, то вскоре положение круто изменилось. Взоры специалистов в области информатики обратились на ЭВМ. В информационном поиске началась эра автоматизации.

Механизация и особенно автоматизация библиотечных и информационных процессов – это жизненная необходимость. Следуя этой необходимости, в настоящее время в нашей стране и за рубежом разработано большое число автоматизированных информационно-поисковых систем (АИПС). Остановимся на описании таких систем подробнее.

Автоматизированные ИПС в зависимости от объектов поиска можно разделить на две группы: документальные и фактографические.

Документальные системы ограничивают свои цели поиском документов, фактографические – поиском самых разнообразных числовых характеристик, фактов, данных и т.д. Имея много общего, эти типы ИПС обладают и рядом существенных отличий. В автоматизированных системах научно-технической информации наиболее широкое применение в нашей стране получили документальные ИПС. Этот факт отражает ведущее положение документа в процессе распространения информации.

Любая документальная ИПС – от ручной до автоматизированной – включает следующие элементы: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, технические устройства, реализующие алгоритмы поиска, фонд документов (или их адресов), записанных на каких-либо носителях информации.