рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Теоретические основы координатного индексирования

Теоретические основы координатного индексирования - раздел Образование, АНАЛИТИКО-СИНТЕТИЧЕСКАЯ ПЕРЕРАБОТКА ИНФОРМАЦИИ   Дескрипторный Язык – Информационно-Поисковый Язык, Предназнач...

 

Дескрипторный язык – информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов. Дескрипторные ИПЯ начали создаваться в США в 50-е гг. Термин «дескриптор» (от английского слова descriptor – описатель) был введен в оборот математиком Кельвином Муерсом. Под дескриптором он понимал «словесный символ, предназначенный для обозначения идеи или понятия». Эти понятия он называл дескрипторами и считал, что для того, чтобы выявить основное содержание документа и перевести его на дескрипторный язык, необходимо произвести интеллектуальный анализ текста. Индексирование должно осуществляться с помощью специальных словарей.

Дальнейшее развитие теория дескрипторных ИПС получила в работах известного американского логика Мортимера Таубе. С помощью терминов математической логики Таубе определил координатное индексирование как «метод анализа информационного содержания документов таким образом, чтобы их поиск осуществлялся путем умножения, сложения и дополнения, т. е. логических операций, которые производятся над кодами, введенными в словарь. Термин «координация» относится не к геометрическим осям координат, а к логической координации».

Идею координатного индексирования он воплотил в 1952 г., разработав систему «Унитерм». В роли индексов в его системе выступали отдельные слова, выбранные из текста документа. Согласно теории Таубе, содержание любого документа может быть описано в виде набора «ключевых слов» (унитермов).

Унитермы – единичные термины, выражающие наиболее общие и сходные (унифицированные) понятия данной отрасли знания.

На каждый такой термин заводится отдельная карточка с номером документа (унитермкарта). Унитермкарты располагались в алфавитном порядке в специальной картотеке. Они должны были образовать базовую лексику соответствующей науки, т.е. комбинацию единиц, которые выразили бы любые понятия данной науки. При разработке системы соблюдались следующие требования:

— использованиеодиночных слов, а не словосочетаний;

— применение понятийодинаковой общности, объединяющих унитермы данной предметной области.

Первое требование приходилось нарушать из-за необходимости использовать в ИПЯ устойчивые словосочетания, а также синонимию, полисемию, омонимию ключевых слов.

Кроме того, практика требовала учитывать и ассоциативную связь (пересечение) унитермов и их родовидовое отношение, что противоречило второму требованию к унитермам.

Таким образом, требования к свойствам унитермов ограничивали возможности этого языка, и он получил лишь весьма ограниченное и кратковременное распространение.

Качество системы «Унитерм» оказалось низким, так как использование естественного языка для описания содержания документов и запросов приводит к большой потере информации. Естественный язык позволяет выразить одну и ту же мысль с помощью различных слов. Идентичные по смыслу слова должны иметь общие ключевые слова, но Таубе не предусматривал разработку тезауруса (словаря), что явилось причиной больших потерь информации. В связи с этим система «Унитерм» в настоящее время практически не применяется.

Необходимость учета синонимов, омонимов и некоторых связей иерархического типа требовала создания формализованного языка ключевых слов информационно-поисковой системы и специальных словарей – тезаурусов.

В переводе греческое слово «тезаурус» означает «сокровищница», «запас», «клад». Впервые близкое к этому термину значение еще в XIII в. использовал Брунетто Латини, назвав свой труд (систематизированную энциклопедию) «Книга о сокровище».

Понятие «тезаурус» имеет множество определений. Общепринятое заключается в том, что под тезаурусом понимается список особых лексических единиц, которые обычно представляются в виде слов или словосочетаний, с зафиксированными логическими отношениями, благодаря которым возможна их взаимная синонимичная замена.

Первый тезаурус такого типа был составлен П. М. Роджетом (1852 г.) в Великобритании. Этот словарь называли «словарем идей», так как в нем слова и словосочетания на английском языке были систематизированы не в алфавитном порядке, как в обычных словарях, а в соответствии с идеями, которые в них заложены.

Создавались эти словари в целях лингвистики – обозначить множество связанных по смыслу слов и словосочетаний одной идеей – названием понятийной группы, т. е. разнообразные слова в этом тезаурусе выражали одну и ту же мысль. Составление лингвистических тезаурусов было предвестником машинной обработки информации.

Впервые термин «тезаурус» в нынешнем его понимании, т. е. в связи с вычислительными машинами, употребила А. Мастерман в 1954 г. Она считала, что тезаурус можно считать общим средством для описания семантических структур естественного языка и предложила использовать его при машинном переводе.

В 1970-х гг. было проведено много исследований, посвященных использованию естественного языка в качестве универсального средства общения человека с машиной. Разработка тезаурусов в этот период была тесно связана с разработкой информационно-по­исковых систем (ИПС). С помощью тезаурусов в ИПС можно было установить соответствие между языком запросов пользователя и документами ИПС. Начиная с 1970-х гг. понятие «тезаурус» взяли на «вооружение» и лингвисты, и программисты.

В нашей стране первые тезаурусы были разработаны в начале 1960-х г. в целях их использования в информационно-поисковых системах. Ю. А. Шрейдер предложил взглянуть на тезаурус как на «систему знаний, отраженных языком», т.е. отказаться от узко­прикладных аспектов применения тезаурусов в ИПС тезаурусов. С. Е. Никитина считает, что тезаурус можно использовать не только как средство информационного поиска, но и для теоретических исследований в области семантики, лингвистики, терминоведения, гносеологии.

В 1990-е гг. в связи с тематикой перевода сложных объектов в новое качество разрабатывалась идея гиперграфового, гипертекстового тезауруса системных знаний.

Сегодня существует идея моделирования терминологической системы с помощью тезауруса, так как именно свойства терминов и терминосистем (системность, устойчивость и регулярность связей, установка на объективность описания и т. д.) предоставляют возможность моделировать терминосистемы с помощью тезаурусов. Таким образом, обосновано, что тезаурусы, терминосистемы, системы знаний – ключевые понятия для формализованного представления знаний. Многие ученые (философы, социологи, психологи и др.) считают язык сокровищницей человеческого опыта, поэтому естественный язык является одним из главных объектов изучения специалистов по информатике и смежным дисциплинам.

Развитие теоретических и практических исследований по созданию информационно-поисковых языков влияло на формирование определения понятия «информационно-поисковый тезаурус». На международной конференции по принципам построения теза­урусов (Варшава, 1970) было выработано такое определение: «Тезаурус является лексическим инструментом информационно-поисковых систем. Он состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь, исчерпывающим образом покрывающий некоторую специфическую область знаний, представляет собой перечень дескрипторов и недескрипторов (вспомогательных терминов), упорядоченный по систематическому и алфавитному принципам и содержащий указание на имеющиеся между ними смысловые отношения как иерархического (родовидового), так и неиерархического типа». По сути, тезаурус представляет собой словарь понятий и словарь классификационных связей между ними.

Основное назначение тезауруса – перевод на информационно- поисковый язык смыслового содержания документов и запросов, которые относятся к различным областям науки и техники, охватываемым классификационной схемой тезауруса.

Тезаурусы помогают установить соответствие между:

— авторской терминологией (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);

— терминологией системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);

— терминологией потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

Последнее определение информационно-поискового тезауруса (ИПТ) сформулировано более кратко: «Информационно-поисковый тезаурус – Нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц» (ГОСТ 7.74 – 96).

В зависимости от тематического профиля тезаурусы подразделяются на многоотраслевые, отраслевые и узкотематические. Известный отечественный многоотраслевой «Тезаурус научно-технических терминов (1972) опубликован под редакцией Ю. И. Шемакина. Для различных отраслей народного хозяйства, науки и техники создаются отраслевые тезаурусы. Кроме того, в нашей стране разработано большое количество узкотематических, или микротезаурусов, предназначенных для поиска информации по отдельной проблеме, теме или отдельному внутриотраслевому направлению.

По назначению тезаурусы делятся на базовые и рабочие. Базовые тезаурусы служат лексико-семантической основой при создании узкотематических рабочих тезаурусов. Они облегчают процесс создания и унификации рабочих тезаурусов. В качестве базовых могут использоваться многоотраслевые тезаурусы. Таким образом, базовые тезаурусы – это нормативные пособия, включающие только основную лексику той или иной отрасли и наиболее проявляющиеся парадигматические отношения. Рабочим тезаурусам характерно большое лексическое богатство (собственные наименования, специфические термины и т. д.), а также развитые парадигматические отношения. Иными словами, семантическая сила рабочих тезаурусов должна превосходить семантическую силу базовых тезаурусов.

 

– Конец работы –

Эта тема принадлежит разделу:

АНАЛИТИКО-СИНТЕТИЧЕСКАЯ ПЕРЕРАБОТКА ИНФОРМАЦИИ

АНАЛИТИКО СИНТЕТИЧЕСКАЯ ПЕРЕРАБОТКА ИНФОРМАЦИИ Учебник...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Теоретические основы координатного индексирования

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ ДОКУМЕНТА
  Глава 3. Теоретические основы составления библиографического описания. 40 3.1. Стандартизация библиографического описания. 40 3.2. Библиографическое описание: опре

Индексирование документа
  Глава 6. Теоретические основы индексирования. 124 6.1. Общие положения индексирования. 124 6.2. Требования к информационно-поисковым языкам.. 125 6.3. Общ

Аналитико-синтетическая переработка информации как учебная дисциплина
В начале 1990-х гг. в системе документальных коммуникаций возникла острая потребность в специалисте-универсале, владеющем комплексом процессов обработки документа. Современные компьютерные технолог

Роль обработки документа в организациях системы документальных коммуникаций
Библиотеки, архивы, книжные палаты и информационные службы обладают фондами, которые формируются в течение десятилетий, а иногда и столетий. Объем фонда только Российской государственной библиотеки

Оборот титульного листа книги
            СЕРИЯ «АР

Последняя страница книги
    Евгений Владимирович Пчелов РЮРИКОВИЧИ ИСТОРИЯ ДИНАСТИИ Редактор Е. Абоева Младший редак

Объект обработки документа
Объектом аналитико-синтетической обработки является документ – материальный носитель с зафиксированной на нем информацией в виде текста, звукозаписи (фонограммы), изображения или их сочетания, пред

Виды обработки
Обработка документа – это совокупность взаимосвязанных, взаимозависимых процессов формирования элементов библиографической записи посредством анализа и синтеза. При анализе документа выявл

Библиографическая запись — главный результат обработки
  Важнейшим результатом обработки является снабжение документа новой формой его представления, а именно библиографической записью. Библиографическая запись – элемент библиогр

Виды библиографических записей
Виды библиографических записей многообразны. В системе документальных коммуникаций могут использоваться отдельные элементы записи, сама запись как информационный продукт, а также совокупность запис

По полноте набора элементов БЗ может быть простой, дополненной и базовой.
Простая БЗ состоит только из обязательного элемента – библиографического описания. Дополненная БЗ, кроме библиографического описания со­держит один и более элементов, например заголовок ил

Автоматизация процессов обработки
  Развитие электронно-вычислительной техники, новых спосо­бов и каналов связи обеспечило переход к машинным способам обработки документа. Зарождение безбумажных информационных техноло

Прописные и строчные буквы
Прописные буквы применяются в соответствии с современными правилами грамматики того языка, на котором составлена библиографическая запись, независимо от того, какие буквы использованы в документе.

Числительные
Числительные в библиографическом описании, как правило, приводят в том виде, в каком они даны в источнике информации, т. е. римскими или арабскими цифрами либо в словесной форме От Петр

Одноуровневое библиографическое описание
Вид описания определяется заранее и зависит от того, с какой целью создается библиографическая запись и какой документ является объектом описания. На одночастный документ, отдельный том

Основное заглавие
Основное заглавие – это элемент описания, содержащий собственно заглавие (название) книги, присвоенное ей автором или издателем, помещенное, как правило, на титульной странице и выделенное цветом и

Параллельное заглавие
Параллельное заглавие, вводят в описание, если в документе присутствует эквивалент основного заглавия на ином языке или иной графике. Обработчик не должен сам переводить заглавие, Данное на русском

Заголовок и точки доступа библиографической записи: определение, назначение, виды
  Прежде чем приступать к изучению правил составления заголовка, напомним, что библиографическое описание предназначено для идентификации и характеристики документа. В информационно-п

Точка доступа – элемент машиночитаемой записи в формализованном виде, который предназначен для поиска и выбора библиографической записи.
Выбор точек доступа к библиографической информации о документе означает выбор наиболее значимых сведений об этом документе (заголовка или заглавия), которые должны играть роль поискового элемента в

Виды заголовка
В зависимости от характера включенных сведений различают 5 видов заголовков, рассмотренных в ГОСТ 7.80-2000.   1. Заголовок, содержащий имя лица

Структура заголовка
Заголовок состоит из единообразно сформулированной основной части, в которой указывают имя (фамилию) физического лица, название организации, обозначение документа и др. При необходимости ее дополня

История разработки заголовка библиографической записи
  История разработки заголовка продолжительный период была общей с историей библиографического описания. В большинстве стран мира до 1960-х гг. заголовок являлся эле­ментом б

Общая методика формирования заголовка библиографической записи
  Заголовок библиографической записи – элемент библиографической записи, содержащий единообразно сформулированные сведения и предназначенный для библиографического поиска. Ис

Правила приведения имени лица в заголовке
Заголовок, содержащий имя лица, может состоять только из имени лица либо из имени лица и идентифицирующих признаков, позволяющих отличить данное лицо от других. В качестве идентифицирующих

Виды заголовка
Форма заголовка может быть полной или сокращенной: Российская Академия наук РАН Раз принятую форму заголовка библиотеки и информационные центры менять не до

Идентифицирующие признаки
Идентифицирующие признаки применяют, как правило, в тех случаях, когда необходимо отличить заголовки, содержащие одинаковые наименования организаций. В заголовке, содержащем наименование о

Общие положения индексирования
  Одной из важнейших операций аналитико-синтетической обработки документов как средства информационного поиска является индексирование документов и информационных запросов.

Требования к информационно-поисковым языкам
  В состав ИПЯ входят множестволексических единиц (ЛE) и грамматические (парадигматические и синтагматические) отношения между ними. ЛE – обозначение отдельн

Общие правила индексирования
  Сущность индексирования заключается в том, что в процессе индексирования осуществляется интеллектуальный анализ документов, в процессе которого из них извлекаются понятия и преобраз

Теоретические основы предметизации
  7.1.1. Значение предметизации   Предметизация – один из фундаментальных методов организации знаний. Этим объясняется широта сфер его использования. Успех расп

Предметизационный ИПЯ – средство предметизации
  7.2.1. Характеристика предметизационного ИПЯ   Качество любой ИПС, отражающей содержание документов, зависит от ИПЯ, с помощью которого система реализуется.

Заголовок предметной рубрики
Единичная предметная рубрика состоит из одной лексической единицы, то есть только из заголовка рубрики. Напомним, что понятие «одна лексическая единица» обозначает одно понятие, а не одно слово. По

Общая методика предметизации
  7.3.1. Основные этапы процесса предметизации   Методика предметизации, так же как и методика описания и систематизации, подразделяется на общую и частную.

Предметная рубрика – результат процесса предметизации
  Конечным результатом процесса предметизации является поисковый образ документа, представленный в виде предметной рубрики и оформленный в качестве элемента библиографической записи.

Значение систематизации
В организациях распространено распределение документов в фонде и библиографических записей в ИПС в соответствии с их содержанием по отраслевому принципу. В результате такой работы документы группир

Период зарождения и становления феодальных отношений (IV-XI вв.)
Народы, племена и государства Восточной Европы и Сибири. Древнеславянское государство – Киевская Русь (IX—XI вв.) Литература о Древней Руси в целом. Под индексом

Общая методика систематизации
  Систематизация – процесс присвоения документу классификационных индексов, позволяющих распределить документ или библиографическую запись на него по отделам или дальнейшим подразделе

Информационно-поисковый тезаурус (ИПТ)
  9.2.1. Структура ИПТ   Международное сотрудничество в области обмена информацией предполагает использование системы тезаурусов, построенных по единым принципа

Методика разработки информационно-поискового тезауруса
Разработка информационно-поискового тезауруса включает несколько этапов: — построение словаря (словника) ключевых слов; — дескрипторизация ключевых слов; — установление п

Автоматизация процессов построения ИПТ
  Работа по составлению тезауруса вручную может длиться несколько лет. За это время лексика соответствующих отраслей и областей знаний также может измениться, так как могут появиться

Выпуски
ИСП Периодические издания и Продолжающиеся издания Таким образом, при несовпадении смысловых значений ключевого слова и дескриптора, можно использовать один из опис

Этапы аннотирования
Аннотирование состоит из трех этапов. Первый этап связан с общим анализом первичного документа и определением его информативности. На этом этапе надо определить тематическую направленность

Теоретические основы реферирования
  Как видно из предшествующих глав, информацию о содержании первичных документов представляют мало понятные пользователю элементы библиографической записи: классификационные индексы,

Виды рефератов
  Реферат – краткое изложение содержания документа, включающее основные фактические сведения и выводы, без дополнитель­ной интерпретации или критических замечаний автора реферата.

Общая методика реферирования документа
  Начиная с первой конференции по индексированию и реферированию, организованной ЮНЕСКО в 1949 г., вопрос о стандартизации различных аспектов составления реферата привлекает внимание

Методы реферирования
  Выбор методов реферирования является важным звеном данного процесса. Известны различные методы, разработанные в библиографии и информатике. В библиографической теории наибо

Маркер записи и поля данных – описание полей
0 – Блок идентификации: 001 Идентификатор записи 010 Международный стандартный номер книги (ISBN) 005 Идентификатор версии 011 Международный стандартный номер се

Книги. Однотомные издания
Семенов, В. В. Философия: итог тысячелетий. Философская психология [Текст] / В. В. Семенов ; Рос. акад. наук, Пущин, науч. центр, Ин-т биофизики клетки, Акад. проблем сохранения жизни. – Пущино : П

Документ в целом
Гиппиус, 3. Н. Сочинения [Текст] : в 2 т. / Зинаида Гиппиус ; [вступ. ст., подгот. текста и коммент. Т. Г. Юрченко ; Рос. акад. наук, Ин-т науч. информ. по обществ, наукам]. – М.: Лаком-книга : Габ

Составные части документов
Двинянинова, Г. С. Комплимент : Коммуникативный статус или стратегия в дискурсе [Текст] / Г. С. Двинянинова // Социальная власть языка : сб. науч. тр. / Воронеж, межрегион, ин-т обществ. наук, Воро

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги