рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

От закона Брэдфорда до ранговых распределений

От закона Брэдфорда до ранговых распределений - раздел Информатика, Популярная информатика Первое, Что Обращает На Себя Внимание В Царстве Документов, – Это Чрезвычайно...

Первое, что обращает на себя внимание в царстве документов, – это чрезвычайно быстрый рост его населения.

Этот общеизвестный факт заставляет всерьез задуматься о том, к чему может привести такой рост. Но, может быть, наши опасения напрасны, и в дальнейшем темпы прироста числа документов замедлятся? Пока что статистика утверждает обратное.

Вот как, например, изменялись документальные информационные потоки по химии. В 1732 г все наследие химии было обобщено и опубликовано голландским профессором в книге объемом 1433 страницы. В 1825 г шведский ученый Берцелиус опубликовал все, что было известно по химии, в 8 томах общим объемом 4150 страниц. В настоящее время американский реферативный журнал «Chemical Abstracts», издаваемый с 1907 г, публикует почти всю информацию по химии, при этом первый миллион рефератов был опубликован спустя 31 год с момента основания, второй – спустя 18 лет, третий – через 7 лет, а четвертый – через 4 года!

Примерно такой же характер роста количества документов можно проследить и в других областях науки. Было замечено, что рост документов носит экспоненциальный характер. При этом ежегодный прирост потоков научно-технической информации составляет 7...10%. В настоящее время каждые 10...15 лет происходит удвоение объемов научно-технической информации (НТИ) Кривая роста числа документов, таким образом, может быть описана экспонентой вида

y = Aekt

где y – сумма знаний, унаследованных от предыдущих поколений, е – основание натуральных логарифмов (е = 2,718...), t – индекс времени (г); A – сумма знаний в начале отсчета (при t = 0), K – коэффициент, характеризующий скорость знаний, эквивалентом которых принимаются потоки научно-технической информации. При t ≈ 10...15 лет у = 2A.

Легко представить себе, что такой характер роста числа научных документов не предвещает нам в будущем, даже ближайшем будущем, ничего хорошего. Леса, превращенные в горы бумаги, в которых тонет беспомощный исследователь...

Однако, как показывает история науки и техники, условия, в которых они развиваются, не являются постоянными, а поэтому механизм экспоненциального роста потоков НТИ часто нарушается. Это нарушение объясняется рядом сдерживающих факторов, в частности войнами, нехваткой материальных и человеческих ресурсов и т.д. В действительности рост числа документов не подчиняется поэтому экспоненциальной зависимости, хотя в определенные периоды развития науки и техники в отдельных областях знаний она проявляется достаточно четко. В чем же причина такого стремительного нарастания потоков документальной информации?

В предыдущих разделах мы обращали внимание на то, что информация играет огромную роль в развитии человеческого общества, поэтому оно сопровождается опережающим по темпам ростом объемов информации. Рост документальных потоков научной информации можно связывать с ростом числа создателей научной информации. Темпы этого роста описываются показательной функцией. Например, в течение последних 50 лет число научных работников в СССР удваивалось каждые 7 лет, в США – каждые 10 лет, в европейских странах – каждые 10...15 лет.

Конечно, темпы роста числа научных работников должны подвергнуться замедлению и достигнуть какой-то более или менее постоянной величины по отношению ко всему количеству работающего населения. В противном случае все население через какое-то время будет занято исследовательскими и опытно-конструкторскими работами, что нереально. Поэтому в будущем следует ожидать замедления темпов роста числа научных документов. В настоящее время эти темпы все еще высоки и внушают потребителям информации тревогу: как хранить и обрабатывать документы, как найти среди них тот, который нужен?

Положение кажется безвыходным: действующий пока в царстве документов закон экспоненциального роста документов резко обострил в нем как «жилищную», так и «транспортную» проблемы.

Однако, как оказывается, здесь существует закон, несколько смягчающий создавшееся положение...

В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде

fr = c,

где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – эмпирическая постоянная величина.

Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки,

в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму – форму «гиперболической лестницы», т.е. при замене одного текста другим общий характер распределения не изменялся.

Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости

fr γ = c ,

где γ – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.

Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др.

Самым важным для рассматриваемой нами проблемы является тот факт, что и документы внутри какой-либо отрасли знаний могут распределяться согласно этому закону. Частным случаем его является закон Брэдфорда, непосредственно связанный уже не с распределением слов в тексте, а с распределением документов внутри какой-либо тематической области.

Английский химик и библиограф С. Брэдфорд, исследуя статьи по прикладной геофизике и смазке, заметил, что распределения научных журналов, содержащих статьи по смазке, и журналов, содержащих статьи по прикладной геофизике, имеют общий вид. На основании установленного факта С. Брэдфорд сформулировал закономерность распределения публикаций по изданиям.

Основной смысл закономерности состоит в следующем: если научные журналы расположить в порядке убывания числа статей по конкретному вопросу, то журналы в полученном списке можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. При этом в первую зону, так называемую зону ядра, входят профильные журналы, непосредственно посвященные рассматриваемой тематике. Количество профильных журналов в зоне ядра невелико. Вторую зону образуют журналы, частично посвященные заданной области, причем число их существенно возрастает по сравнению с числом журналов в ядре. Третья зона, самая большая по количеству изданий, объединяет журналы, тематика которых весьма далека от рассматриваемого предмета.

Таким образом, при равном числе публикаций по определенной тематике в каждой зоне число наименований журналов резко возрастает при переходе от одной зоны к другой. С. Брэдфорд установил, что количество журналов в третьей зоне будет примерно во столько раз больше, чем во второй зоне, во сколько раз число наименований во второй зоне больше, чем в первой. Обозначим р1 – число журналов в 1-й зоне, р2 – во 2-й, р3 – число журналов в 3-й зоне.

Если a – отношение количества журналов 2-й зоны к числу журналов 1-й зоны, то закономерность, вскрытая С. Брэдфордом, может быть записана так:

P1 : P2 : P3 = 1 : a : a2

или

P3 : P2 = P2 : P1 = a.

Эту зависимость называют законом Брэдфорда.

Б. Викери уточнил модель С. Брэдфорда. Он выяснил, что журналы, проранжированные (выстроенные) в порядке уменьшения в них статей по конкретному вопросу, можно разбить не на три зоны, а на любое нужное число зон. Если периодические издания расположить в порядке уменьшения в них количества статей по конкретному вопросу, то в полученном списке можно выделить ряд зон, каждая из которых содержит одинаковое количество статей. Примем следующие обозначения х – количество статей в каждой зоне. Тx – количество журналов, содержащих х статей, Т2x – количество журналов, содержащих 2х статей, т.е. сумма наименований журналов в 1-й и во 2-й зонах, Т3x – количество журналов, содержащих 3х статей, т.е. сумма наименований журналов в 1-й, 2-й и в 3-й зонах, Т4x – количество журналов, содержащих 4х статей.

Тогда эта закономерность будет иметь вид

Tx : T2x : T3x : T4x : ... = 1 : a : a2 : a3 : ...

Данное выражение называют законом Брэдфорда в толковании Б. Викери.

Если закон Ципфа характеризует многие явления социального и биологического характера, то закон Брэдфорда – это специфический случай распределения Ципфа для системы периодических изданий по науке и технике.

Из этих закономерностей можно извлечь выводы огромной практической пользы.

Так, если расположить какие-либо периодические издания в порядке убывания количества статей по определенному профилю, то, согласно Брэдфорду, их можно разбить на три группы, содержащие равное количество статей. Пусть мы отобрали группу из 8 наименований журналов, занимающих первые 8 мест в полученном списке. Тогда для того, чтобы удвоить количество статей по интересующему нас профилю, нам придется добавить к имеющимся 8 еще 8 · a наименований журналов. Если a = 5 (это значение найдено экспериментальным путем для некоторых тематических областей), то число этих наименований равно 40. Тогда общее число наименований периодических изданий составит 48, что, конечно, значительно больше, чем 8. При попытке же получить втрое большее количество статей нам придется охватить уже 8 + 5 · 8 + 52 · 8 = 256 наименований! Из них треть интересующих нас статей сосредоточена всего в 8 журналах, т.е. статьи распределяются по наименованиям журналов неравномерно. С одной стороны наблюдается концентрация значительного количества статей по определенной тематике в нескольких профильных журналах, с другой – рассеяние этих статей в огромном количестве изданий по смежной или далекой от рассматриваемой тематике, в то время как на практике необходимо выявить основные источники по интересующей нас области научно-технических знаний, а не случайные издания.

Закономерности концентрации и рассеяния научно-технической информации в царстве документов позволяют выбирать именно те издания, которые с наибольшей вероятностью содержат публикации, соответствующие определенному профилю знаний. В массовом процессе информационного обеспечения в масштабах страны использование этих закономерностей позволяет сократить для народного хозяйства огромные расходы.

Существующее рассеяние публикаций нельзя оценивать только как вредное явление. В условиях рассеяния улучшаются возможности для межотраслевого обмена информацией.

Попытка сконцентрировать все публикации одного профиля в нескольких журналах, т.е. не допустить их рассеяния, будет иметь отрицательные последствия, не говоря уж о том, что точное отнесение документа к тому или иному профилю не всегда представляется возможным.

Результаты проверок закона рассеяния Брэдфорда, как показал С. Брукс, имеют различные степени соответствия. Несмотря на внесенные поправки, модель Брэдфорда не отражает разнообразия реальных распределений. Это несоответствие можно объяснить тем, что Брэдфорд сделал свои выводы, основываясь на выборе массивов, относящихся только к узким тематическим областям.

Огромная заслуга Дж. Ципфа и С. Брэдфорда состоит в том, что они положили начало строгому исследованию документальных информационных потоков (ДИП), которые представляют собой совокупности научных документов-публикаций и неопубликованных материалов (например, отчетов по научно-исследовательским и опытно-конструкторским работам). Дальнейшие исследования, среди которых видное место занимают работы советского специалиста в области информатики В.И. Горьковой, показали, что можно определять не только количественные параметры совокупностей научных документов, но и совокупностей элементов признаков научных документов: авторов, терминов, индексов классификационных систем, наименований изданий, т.е. наименований элементов, характеризующих содержание научных документов. Например, можно расположить журналы в порядке убывания числа печатающихся в них авторов, в порядке убывания средней величины публикующихся в них статей или упорядочить совокупность документов по любому ее элементу.

Упорядоченность задается ранжированием (порядком размещения) наименований элементов по частоте их появления в порядке ее убывания. Такая упорядоченная совокупность наименований элементов называется ранговым распределением. Распределения, которые в свое время изучал Ципф, – это типичные примеры ранговых распределений. Оказалось, что вид рангового распределения, его строение характеризуют ту совокупность документов, к которой относится данное ранговое распределение. Выяснилось, что при построении ранговые распределения в большинстве случаев имеют форму закономерности Ципфа с поправкой Мандельброта:

fr γ = c.

При этом коэффициент γ – величина переменная. Постоянство коэффициента γ сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с γ = const называется центральной зоной рангового распределения (значение аргумента на этом участке изменяется от Inr1, до Inr2). Значениям аргумента от 0 до Inr1 соответствует зона ядра рангового распределения, а значениям аргумента от Inr2 до Inr3 – так называемая зона усечения.

Какой же смысл заложен в существовании трех явно различаемых зон ранговых распределений? Если последнее относится к терминам, составляющим какую-либо область знании, то ядерная зона, или зона ядра рангового распределения, содержит наиболее общеупотребительные, общенаучные термины. Центральная зона содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук, «охватывают ее основное содержание». В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.

Таким образом, основа лексики какой-либо области знаний сосредоточена в центральной зоне рангового распределения. При помощи терминов ядерной зоны эта область знаний «стыкуется с более общими областями знаний», а зона усечения играет роль авангарда, как бы «нащупывающего» связи с другими отраслями науки. Так, если несколько лет назад в ранговом распределении терминов тематической области «Обработка металлов» встретился бы термин «лазеры», то ввиду его низкой встречаемости он, наверняка, попал бы именно в зону усечения: связи между лазерной техникой и обработкой металлов еще только «нащупывались». Однако сегодня этот термин, без сомнения, попал бы в центральную зону, что отразило бы уже его достаточно высокую встречаемость и, следовательно, устойчивую связь лазерной техники с обработкой металлов.

График рангового распределения наполнен глубоким смыслом: ведь по относительной величине той или иной зоны на графике можно судить о характеристиках всей области знаний. График с обширной ядерной зоной и малой зоной усечения относится к достаточно широкой и скорее всего консервативной области знаний. Для динамичных отраслей науки характерна увеличенная зона усечения. Малая величина ядерной зоны может говорить об оригинальности области знаний, к которой относится построенное ранговое распределение и т.д. Так, на основании анализа рангового распределения оказалось возможным дать качественные оценки документальным информационным потокам в соответствии с теми отраслями, науки, где они формировались. Царство документов приобретает очертания системы, в которой элементы взаимосвязаны, а закономерности, управляющие этими связями, могут быть изучены!

– Конец работы –

Эта тема принадлежит разделу:

Популярная информатика

На сайте allrefs.net читайте: "Популярная информатика"

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: От закона Брэдфорда до ранговых распределений

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Комфорт и перегрузки
Информация... Такое привычное, как будто бы не содержащее ничего таинственного, понятие Оно прочно вошло в нашу повседневную жизнь, и мы пользуемся им часто и уверенно, не вдумываясь в его смысл. Д

Знание – сила!
Приоткроем завесу тысячелетий и попытаемся выяснить, что же позволило человеку успешно бороться с силами природы. Вспомним: человек, казалось, проигрывал в жизнеспособности многим представ

Информационный кризис: голод при изобилии
Итак, знание – сила. Тогда информация, питающая знание, – источник этой силы? Помноженные на труд, упорство и вдохновение, знания могут творить чудеса! Именно так и было на протяжении многих тысяче

Это сложное простое понятие!
Каждое из рассмотренных нами определений информации имеет несколько аспектов. Каждое из них связано с определенной мерой количества информации. Для того чтобы объединить их, попытаемся каждое из оп

В поисках «виновника» кризиса
Если понимать информацию в обычном, «житейском» смысле – как сведения, сообщения, представления, то даже при таком ограниченном ее толковании можно сделать полезные наблюдения. Прежде всег

Итак, информатика!
Поскольку информация в связи с научно-технической революцией приобрела исключительное значение в жизни общества, то вполне закономерно, что сама она с определенного времени стала объектом изучения,

Когда информация становится знанием
Применяя модель передачи семантической информации Ю.А. Шрейдера, мы установили, что при значительной разнице тезаурусов источника и приемника информации количество информации, извлекаемое из сообще

В пространстве и во времени
В истории развития человечества, представляющей собой единый, неразрывный во времени процесс, можно отметить некоторые важные вехи, которые после длительного периода количественных изменений привел

Знакомьтесь: автоматизированные ИПС
Используя закономерности рассеяния и старения информации, мы можем существенно ограничивать поток информации, с которой целесообразно знакомиться. Однако та часть потока информации, в которой с наи

И проблемы технические
Вычислительные машины не сразу нашли широкое применение в информационном поиске. Причиной этому послужила высокая стоимость и низкая эффективность работы первых ИПС. Однако такое положение длилось

Плюс аналитико-синтетическая обработка!
Автоматизация процесса поиска документов в огромных массивах современных информационных центров и библиотек не избавляет потребителей информации от неприятностей, связанных с информационным кризисо

Что Вы знаете о ГСНТИ?
Все, что может человечество противопоставить информационному кризису, объединяется понятием «научно-информационная деятельность». Под этим понятием подразумевается разновидность научного т

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги