Одной из важнейших операций аналитико-синтетической обработки документов как средства информационного поиска является индексирование документов и информационных запросов.
Индексирование – процесс выражения содержания документа и (или) запроса на информационно-поисковом языке (ИПЯ) с помощью терминов индексирования (классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов). Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ). Таким образом, происходит «свертывание» информации, содержащейся в документе и изложение ее на ИПЯ в виде индекса, рубрики, кода (на классификационном языке) или дескриптора, ключевого слова (на дескрипторном языке).
Поисковый образ документа – это выраженное в терминах формализованного информационно-поискового языка основное смысловое содержание документа (а не вся информация, содержащаяся в документе), которое поставлено в однозначное соответствие этому документу, по которому производится отыскание данного документа в массиве других документов.
Индексирование запроса осуществляется путем перевода его содержания на информационно-поисковый язык. Совокупность терминов индексирования, выражающих смысловое содержание запроса, называетсяпоисковым образом запроса (ПОЗ). В этом случае поиск документов ведется по совокупности терминов индексирования. Чтобы повысить эффективность поиска информации по запросу, поисковый образ запроса можно дополнить специальными указаниями о последовательности выполнения логических операций в процессе информационного поиска, которые являютсяпоисковым предписанием.
Методика индексирования запросов за счет включение в поисковое предписание дополнительных терминов, понятий или дополнительных указаний позволяет расширить область поиска информации (например, за счет включения видовых и ассоциативных терминов) и в конечном итоге повысить функциональную возможность информационно-поисковой системы.
Индексирование реализуется в следующих процессах: предметизации, систематизации и координатном индексировании.
Систематизация – вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами в соответствии с правилами какого-либо классификационного ИПЯ (классификационной системы). Такой принцип индексирования принято считать классификационным. Классификационный принцип индексирования обеспечивает возможность организации информационного поиска по иерархическому признаку.
Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой (ПР) в соответствии с правилами соответствующего предметизационного ИПЯ. Предметизационный принцип индексирования базируется на представлении содержания документа в понятийной системе определенного естественного языка и на использовании в качестве терминов индексирования лексических единиц (ЛЕ) естественного языка.
Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку.
Координатное индексирование – вид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражается множеством ключевых слов или дескрипторов. Информационно-поисковый язык, предназначенный для координатного индексирования документов (или частей документов) и запросов посредством ключевых слов и (или) дескрипторов, называется дескрипторным языком.
Термины «индексирование» и «индексатор» распространены в англоязычной литературе и широко применяются в международной и отечественной библиотечной практике.
В зависимости от того, какой принцип индексирования является ведущим (или единственным) различаютпредметизационные, классификационные идескрипторные информационно-поисковые языки. В соответствии с характером ИПЯ индексирование осуществляется как предметизация, систематизация и координатное индексирование.
А в качестве терминов этих видов индексирования используют предметные рубрики, классификационные индексы, дескрипторы, ключевые слова.
В зависимости от типа используемого ИПЯ, различают два режима индексирования:предкоординатное (классификационное) и посткоординатное.
В предкоординатном индексировании связи между терминами индексирования устанавливаются заранее – при разработке соответствующего ИПЯ. К предкоординатным ИПЯ можно отнести следующие:
— перечислительные классификации;
— иерархические классификации;
— предметные классификации;
— фасетные классификации.
В посткоординатном индексировании связи (координация) между терминами индексирования устанавливаются во время индексирования документов или в процессе их поиска. К посткоординируемым ИПЯ относят:
— дескрипторные языки;
— посткоординируемые фасетные классификации.
Теоретические основы и методика процессов индексирования
(предметизации, систематизации, координатного индексирования) подробно изложены в последующих главах методического пособия.