Выпуски

ИСП Периодические издания

и Продолжающиеся издания

Таким образом, при несовпадении смысловых значений ключевого слова и дескриптора, можно использовать один из описанных способов замены.

Кроме того, нужно иметь в виду, что отсутствие в тезаурусе дескрипторов, совпадающих с ключевыми словами по форме, не означает, что тезаурус не содержит термины, тождественные ключевым словам по смыслу. Русский язык позволяет отразить одно и тоже понятие разными языковыми формами. Множество дескрипторов в тезаурусе представлено словосочетаниями русского языка. Сложность заключается в том, что индексатор должен суметь отыскать дескрипторы, тождественные по смыслу ключевым словам документа, но выраженные другой словарной формой. Алгоритм замены ключевого слова заключается в следующем: сначала определяется синоним ключевого слова, похожий по своему лексическому составу, затем он должен быть заменен дескриптором, тождественным по наименованию. Например:

Ключевое слово Дескриптор

Двигатели для танков Танковые двигатели

Проведение такой замены осуществляется с помощью пермутационного указателя тезауруса. Если в ключевом слове и в терминах пермутационного указателя отсутствуют общие элементы, использовать указатель для разыскания нужного дескриптора практически невозможно. Чтобы осуществить такую операцию, индексатор должен быть специалистом в предметной области индексируемого документа.

Допустима инетождественная замена ключевых слов дескрипторами, так как невозможно максимально точно отразить содержание абсолютно всех документов.

Проведение нетождественной замены сопровождается искажением информации, содержащейся в документе, поэтому необходимо соблюдать выработанные рекомендации, способствующие уменьшению искажения смысла этой информации.

1. При замене ключевого слова дескриптором по систематическому указателю тезауруса определяют дескрипторную область. Затем выделяют дескрипторную группу. В группе разыскивают дескриптор, наиболее близкий по смыслу данному ключевому слову.

Выбранный дескриптор используется в поисковом образе документа. Например, ключевое слово «высшие учебные заведения». В систематическом указателе нужно найти дескрипторную область, соответствующую предметной области данного ключевого слова: СОЦИАЛЬНЫЕ И СМЕЖНЫЕ НАУКИ. Затем внутри области найти дескрипторную группу ОБЩЕСТВЕННЫЕ НАУКИ,

КУЛЬТУРА И ИСКУССТВО. В этой группе – дескриптор УНИВЕРСИТЕТЫ. В результате получаем:

Ключевое слово Дескриптор

Высшие учебные заведения Университеты

Точность этого способа замены зависит не только от возможностей тезауруса, но и от объема знаний индексатором предметной области.

Дополнительным входом в тезаурус на этом этапе может служить пермутационный указатель.

2. При замене ключевого слова, выраженного словосочетанием, его раскладывают на синтаксические элементы, которые отражают содержание этого словосочетания.

Замена каждого элемента осуществляется, как правило, вышеописанным способом.

3. Если ключевое слово невозможно заменить описанными способами, т. е. не получается более-менее адекватно отразить понятие, используют дескриптор, который выражает более широкое (родовое) понятие.

Для поиска такого дескриптора могут привлекаться и систематический, и пермутационный указатели. Если вести поиск по систематическому указателю, надо начинать с определения дескрипторной области, а затем – группы. Например, ключевое слово «маскиро­вочные халаты» заменяется дескриптором МАСКИРОВОЧНАЯ ОДЕЖДА, так как в тезаурусе нет дескрипторов, близких по значению всему словосочетанию.

Результаты выполнения смысловых преобразований, как правило, оформляются в виде специального «перечня замен» (алфавитного списка терминов естественного языка с отсылкой к более близким им по значению дескрипторам тезауруса). Этот перечень поможет индексировать понятия, не вошедшие в тезаурус, но имеющие важное поисковое значение. Помимо этого, выполнение замен помогает расширить поисковый образ документа с помощью родовых связей дескрипторов тезауруса, так как в поисковый образ вместе с основным дескриптором, установленным в результате замены ключевого слова, выписываются все родовые дескрипторы, вошедшие в его словарную статью в лексико-семантической части тезауруса.

 

9.6. Автоматизация координатного индексирования

 

Автоматизация координатного индексирования осуществляется по единому алгоритму, что позволяет достичь единообразия, полноты, точности, последовательности этого процесса, а также экономии времени, материальных и человеческих ресурсов.

Для координатного индексирования документов в автоматизированных ИПС используют информационно-поисковые языки дескрипторного типа. Парадигматические и синтагматические отношения, существующие между понятиями в этих языках, отражаются в тезаурусах с помощью отнесения их к определенным категориям или путем использования специальных грамматических средств (указателей роли и связи).

Сегодня нет единой концепции разработки алгоритма формирования поискового образа документа, так как одни исследователи предлагают формировать поисковый образ документа на основе анализа полного текста (первичного документа), другие – текста реферата.

Индексирование по тексту документа предполагает процедуру сжатия поискового образа документа. В связи с этим автоматизация координатного индексирования может быть полной и частичной. В процессе полной автоматизации в ЭВМ вводятся, как правило, рефераты, которые с помощью программных средств формируют поисковые образы документов.

В процессе частичной автоматизации к формированию поисковых образов документов привлекается человек. Чаще всего его участие заключается в предварительной формализации описаний документов, которая заключается в выборе информативных слов и словосочетаний и вводе их в ЭВМ. А дальше автоматически с помощью специальных алгоритмов эти слова и словосочетания заменяются на машинные индексы.

В практике используют два метода координатного индексирования документов:

— с контролем лексики по тезаурусу;

— свободное индексирование.

В процессе индексирования с контролем лексики ключевые слова, выбранные из текста документа заменяются на эквивалентные им по смыслу понятия; более широкие по смыслу; понятия, ассоциированные с исходным, взятым из тезауруса. Иногда индексатор, используя свои профессиональные знания, опыт и тезаурус, включает в поисковый образ документа лексические единицы используемого ИПЯ, отсутствующие в тексте.

В результате многолетней практики индексирования документов с использованием дескрипторного ИПЯ выработались общие методические рекомендации последовательности этого процесса. Этап анализа содержания документов можно выразить следующей схемой: выделение предмета (темы) документа, аспекта, свойства предмета, области применения предмета, видов и методов исследования свойств предмета, конкретной методики исследования предмета и т. д.

Свободное индексирование заключается в формировании поискового образа документа из ключевых слов и словосочетаний, выбранных из текста документа. При этом нет ограничений на ввод в систему новых понятий. В практике используются оба метода индексирования.

Анализ этих методов показал, что свободное индексирование по удобству использования и доступности превосходит индексирование с контролем лексики. Но автоматизация процессов обработки, поиска документов больше ориентирована на работу со строго формализованной информацией, где все поисковые признаки и понятия представляются в единообразной форме.

 

9.6.1. Основные методы автоматизированного индексирования

 

Информационно-поисковый язык является основным элементом логико-семантического аппарата ИПС. Использование искусственного языка объясняется тем, что естественный язык обладает свойствами, которые делают невозможным его использование для записи и поиска информации. К таким свойствам относят: неоднозначность и многозначность слов (омонимия, полисемия), неформализованное связей слов и др.

Основные требованиями к ИПЯ:

— однозначность – каждая запись на ИПЯ должна иметь только один смысл, одну трактовку. Любое понятие должно быть выражено единообразной записью средствами ИПЯ;

— достаточная семантическая сила – способность ИПЯ отражать с достаточной полнотой и точностью смысловое содержание документов определенной предметной области;

— ИПЯ должен быть удобным для алгоритмического сопоставления выраженных на нем поисковых образов документов с поисковыми предписаниями;

— открытость – возможность корректировки языка.

Основными составляющими ИПЯ являются: лексика (словарный состав), базисные (аналитические) отношения, грамматика, система обозначений (алфавит), система ведения (изменения и дополнения), а также правила образования и интерпретации.

Словарный состав ИПЯ может быть выражен лексикой естественного языка (слова, словосочетания), цифровыми кодами, шифром слов и словосочетаний естественного языка, обозначающих соответствующий класс понятий.

В качестве базисных (аналитических) отношений могут выступать парадигматические отношения (род – вид; целое – часть; предмет – функция и т. д.).

Эти связи выражают структуру языка и являются стабильными для конкретной предметной области.

Грамматика ИПЯ выражена смысловыми, текстуальными отношениями (синтагматическими) между лексическими единицами ИПЯ.

Система обозначений (алфавит) ИПЯ – это индексация лексических единиц языка. В систему обозначений входят буквенные и цифровые знаки, их комбинация, пунктуационные знаки, специальные символы. Систему обозначений называют нотацией.

Система ведения заключается в исключении устаревших слов или рубрик, устаревших связей и замене их новыми, т. е. в применении правил исправления и дополнения языка.

Правила образования предполагают преобразовывать простые лексические единицы в сложные или составные. Правила интерпретации заключаются в переводе с естественного языка на ИПЯ и наоборот.

Для определения эффективности ИПЯ исследуются и устанавливаются их основные характеристики: семантическая сила, лексическая, парадигматическая и синтагматическая полнота и точность. Для этого в автоматизированных информационно-поисковых системах используют различные способы анализа содержания текстов, а также методы сопоставления слов, синтаксические и статистические методы установления связей между словами (по­нятиями), методы построения и анализа словосочетаний.

Основными методами автоматического анализа текстов являются:морфологический, синтаксический и семантический.

Морфологический анализ используется для сокращения вводимых текстов до основ слов (морфем), а также отождествления их различных форм. В процессе морфологического анализа:

— по буквенному составу слова определяется его грамматический класс;

— определяются отглагольные существительные;

— сложные слова разделяются на самостоятельные и составные (префиксоид и основу);

— словоформы одного слова приводят к одной основе (путем отсечения окончаний и суффиксов).

В результате морфологического анализа входной текст представлен последовательностью условных единиц. Каждая из этих единиц включает сведения о лексической единице, из которой она получена (грамматический класс слова, падеж, число).

Синтаксический анализ состоит в процессе выделения смысловых единиц текста, определения их функциональной роли и установления связей между ними. Синтаксический анализ может проводиться тремя способами: анализ по членам предложения; анализ по предложениям; анализ с представлением его результатов в виде дерева зависимостей. В автоматизированных информационных системах чаще используется алгоритм синтаксического анализа по предложениям. Результатом этого анализа является исходный текст, перечень слов, отсутствующих в словаре, граф-схема дерева предложения, грамматическая ин­формация к словам, в которой стрелками соединяются связанные по смыслу слова.

Семантический анализ обработки текстов заключается в установлении смысловых связей между словами входного текста и в отнесении их к соответствующим семантико-грамматическим категориям (предметы, объекты, приборы, качества, свойства, процесс и т. д.).

На начальной стадии семантического анализа терминам исходного текста присваивается один из трех признаков терминов: неинформативный, информативный или полуинформативный. Такая классификация является условной и зависит от тематической области текста. Кроме того, термины всех трех признаков разделяют на слова естественного языка, числовую информацию и термины, включающие смешанные символы. В заключение каждую лексическую единицу относят к определенной семантико-грамматической категории, суть которой заключается в уменьшении объема обозначаемых его понятий. Чаще всего эти категории применяют при описании объектов и явлений материального мира.

Эти методы могут быть использованы в специально разработанных алгоритмах обработки текстов документов. Например:

— из исходного текста выделяют фрагменты индексирования (слова, словосочетания, предложения). На этом этапе используют семантический анализ текстов;

— используя морфологический анализ, можно сократить вводимый текст до основ слов и отождествить различные формы слов;

— с помощью синтаксического анализа текстов выделяют их смысловые единицы и устанавливают связи между ними;

— по тезаурусу ищут наименования понятий, связанных по смыслу с исходными (эквивалентных исходным, родовых, ассоциированных);

— из найденных наименований понятий отбирают наиболее узкие по смыслу и заменяют соответствующими кодами;

— формируют поисковый образ документа.

Результатом автоматизированной обработки текстов документов является формирование поисковых образов документов и осуществление их поиска по соответствующему информационному запросу.

Для различных автоматизированных информационных систем возможны иная последовательность и иной состав этапов индексирования документов. Но любой алгоритм автоматического индексирования должен обеспечить высокое качество отражения содержания документов при формировании их поисковых образов, а также быть эффективным с точки зрения материальных затрат и ресурса времени.

Аналитико-синтетическая переработка информации – это процесс семантический, т. е. обработка смысла документа. Если процессы семантической обработки документов в рамках АИС выполняются вручную, т. е. с увеличением участия человека в них, то это, как правило, приводит к неоднозначности раскрытия смысла документов, удорожает услуги, связанные с трудоемкостью выполнения этих процессов. Кроме того, наблюдается большая потеря информации. Устранить такие недостатки можно введением и повышением уровня автоматизации процессов семантической обработки документов, а именно: разработкой методов и алгоритмов автоматизации индексирования; созданием машинных словарей для их использования в процессе автоматического анализа входных текстов.

Вопросам разработки методов и алгоритмов автоматизации индексирования посвящены предыдущие части главы.

Для автоматического анализа текстов на естественном языке в целях автоматического формирования поисковых образов документов разрабатывают и используют следующие типы машинных словарей:

Словарь (тезаурус) синонимов для замены значимых слов разрешенными терминами (дескрипторами). Каждый из этих дескрипторов представляет класс слов (синонимичных категорий), близких по смыслу.

Словаря словосочетаний – для распознания и использования словосочетаний, которые можно применять в качестве характеристик содержания документа. Использование такого словаря повышает эффективность анализа содержания, так как позволяет определить устойчивые словосочетания, связанные между собой определенными синтаксическими связями.

Словарь отрицаний позволяет избежать использования терминов, которые не являются информативными для конкретной предметной области.

Иерархическая организация терминов (понятий) позволяет для любого понятия найти его родовое, видовое, синонимичное и ассоциативное понятие.

Целью создания и использования таких словарей является унификация терминологии, используемой в формализованных документах.

Эти словари способствуют нормализации языка вводных текстов документов.

В заключение отметим достоинства и недостатки дескрипторных ИПЯ по сравнению с ИПЯ других типов.

К основным достоинствам дескрипторных языков можно отнести то, что они позволяют осуществлять эффективный информационный поиск по любому, заранее не предусмотренному сочетанию признаков. Дескрипторные ИПЯ позволяют легко вводить новые термины и учитывать новые информационные потребности.

Кроме того, дескрипторные ИПЯ имеют сравнительно небольшой по объему словарный состав.

Недостатки дескрипторных ИПЯ:

— информационный поиск по тематическим запросам сложнее проводить в дескрипторных ИПЯ, чем при использовании иерархических и фасетных классификаций;

— составление информационно-поисковых тезаурусов – трудоемким процесс;

— дескрипторные языки требуют больше специальных знаний и практического опыта, чем другие ИПЯ;

— эффективная реализация ИПС с использованием дескрипторных ИПЯ требует использования специальных технических и программных средств автоматизации.