рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Популярная информатика

Популярная информатика - раздел Информатика,   Http://n-T.ru/   По...

 

http://n-t.ru/

 

Популярная информатика

Николай ЧУРСИН

Книга доступна в формате HTML (только текст).

Внимание, информация!

Что же такое информация?

Наука о научной информации

Почему академики не учат первоклассников?

Законы царства документов

Выход в автоматизации?

Предисловие

Информатика возникла сравнительно недавно (примерно тридцать лет назад) и по сравнению с другими науками еще совсем молода. Но несмотря на это, в настоящее время она выдвинулась в ряд важнейших областей знания. Причина ее стремительного развития состоит в том, что предмет ее исследования – научная информация, свойства и закономерности ее распространения – приобретает в современном мире исключительно важное значение.

В условиях научно-технической революции научная информация является одним из национальных ресурсов, которые определяют, в конечном счете, социально-экономическое развитие страны. Эффективное использование научной информации – задача не только специальных информационных органов, но и всех тех, кто непосредственно занят в научной или производственной сфере. Поэтому, в какой бы области знаний не работал сейчас ученый или специалист, для него очень важно уметь грамотно обрабатывать информацию: искать, отбирать, анализировать и использовать ее. Именно поэтому ему не обойтись без знания информатики так же, как, например, не обойтись без знания математики.

В современных условиях, когда объем необходимых для человека знаний резко и быстро возрастает, уже невозможно делать главную ставку на усвоение определенной суммы, фактов Важно прививать умение самостоятельно пополнять свои знания, ориентироваться в стремительном потоке научной и политической информации. Решению этой задачи может способствовать ознакомление будущих ученых, конструкторов, технологов, руководителей производства с достижениями информатики. Именно им и адресована эта книга.

Начиная разговор об информатике, целесообразно подчеркнуть, что информатика – динамичная область знаний Содержание многих ее понятий, даже основных, в будущем, вероятно, изменится. Однако мы уверены, что ни в ближайшем, ни тем более в отдаленном будущем не уменьшится значение информатики для человеческого общества.

 

Внимание, информация!

Оглавление

 

Текст издания:

Николай Николаевич Чурсин. Популярная информатика.
К.: «Техника», 1982.

 

Внимание, информация!

Комфорт и перегрузки

Что же несет человеку воспринимаемая им из внешнего мира информация в наше время? На первый взгляд – комфорт. Информация – это и газетные полосы, и… Однако, приглядевшись повнимательнее, мы увидим, что информация несет нам не… Как видим, влияние информации на жизнь нашего современника велико и противоречиво. Чтобы представить, каким будет это…

Знание – сила!

Вспомним: человек, казалось, проигрывал в жизнеспособности многим представителям животного мира. У него не было мощных зубов, волосяного покрова,… Однако, по мнению X. Арнтца, президента Международной федерации по… Изучив повадки окружавших его животных, древний человек научился побеждать их, противопоставляя физической силе силу…

Информационный кризис: голод при изобилии

Первым весьма эффективным способом хранения и распространения информации стала книга. Конечно же, письменность существовала задолго до… Поток информации на самых различных носителях, с которыми приходилось… Человеку становится все труднее справляться с резко возросшими информационными нагрузками, которые ему приходится…

Что же такое информация?

Немного теории...

Слово «информация» происходит от латинского – разъяснение, изложение, осведомленность. В течение многих веков понятие информации не раз претерпевало изменения, то расширяя, то предельно сужая свои границы. Сначала под этим словом понимали «представление», «понятие», затем – «сведения», «передачу сообщений». В XX в. бурное развитие получили всевозможные средства связи (телефон, телеграф, радио), назначение которых заключалось в передаче сообщений. Однако эксплуатация их выдвинула ряд проблем: как обеспечить надежность связи при наличии помех, какой способ кодирования сообщения применять в том или ином случае, как закодировать сообщение, чтобы при минимальной его длине обеспечить передачу смысла с определенной степенью надежности. Эти проблемы требовали разработки теории передачи сообщений, иными словами, теории информации. Одним из основных вопросов этой теории был вопрос о возможности измерения количества информации.

Попытки количественного измерения информации предпринимались неоднократно. Первые отчетливые предложения об общих способах измерения количества информации были сделаны Р. Фишером (1921 г.) в процессе решения вопросов математической статистики. Проблемами хранения информации, передачи ее по каналам связи и задачами определения количества информации занимались Р. Хартли (1928 г.) и X. Найквист (1924 г.). Р. Хартли заложил основы теории информации, определив меру количества информации для некоторых задач. Наиболее убедительно эти вопросы были разработаны и обобщены американским инженером Клодом Шенноном в 1948 г. С этого времени началось интенсивное развитие теории информации вообще и углубленное исследование вопроса об измерении ее количества в частности.

Для того чтобы применить математические средства для изучения информации, потребовалось отвлечься от смысла, содержания информации. Этот подход был общим для упомянутых нами исследователей, так как чистая математика оперирует с количественными соотношениями, не вдаваясь в физическую природу тех объектов, за которыми стоят соотношения. Например, если находится сумма двух чисел 5 и 10, то она в равной мере будет справедлива для любых объектов, определяемых этими числами. Поэтому, если смысл выхолощен из сообщений, то отправной точкой для информационной оценки события остается только множество отличных друг от друга событий и соответственно сообщений о них.

Предположим, нас интересует следующая информация о состоянии некоторых объектов: в каком из четырех возможных состояний (твердое, жидкое, газообразное, плазма) находится некоторое вещество? на каком из четырех курсов техникума учится студент?

Во всех этих случаях имеет место неопределенность интересующего нас события, характеризующаяся наличием выбора одной из четырех возможностей. Если в ответах на приведенные вопросы отвлечься от их смысла, то оба ответа будут нести одинаковое количество информации, так как каждый из них выделяет одно из четырех возможных состояний объекта и, следовательно, снимает одну и ту же неопределенность сообщения.

Неопределенность неотъемлема от понятия вероятности. Уменьшение неопределенности всегда связано с выбором (отбором) одного или нескольких элементов (альтернатив) из некоторой их совокупности. Такая взаимная обратимость понятий вероятности и неопределенности послужила основой для использования понятия вероятности при измерении степени неопределенности в теории информации. Если предположить, что любой из четырех ответов на вопросы равновероятен, то его вероятность во всех вопросах равна 1/4. Одинаковая вероятность ответов в этом примере обусловливает и равную неопределенность, снимаемую ответом в каждом из двух вопросов, и, следовательно, каждый ответ несет одинаковую информацию.

Теперь попробуем сравнить следующие два вопроса: на каком из четырех курсов техникума учится студент? Как упадет монета при подбрасывании: вверх «гербом» или «цифрой»? В первом случае возможны четыре равновероятных ответа, во втором – два. Следовательно, вероятность какого-то ответа во втором случае больше, чем в первом (1/2 > 1/4), в то время как неопределенность, снимаемая ответами, больше в первом случае. Любой из возможных ответов на первый вопрос снимает большую неопределенность, чем любой ответ на второй вопрос. Поэтому ответ на первый вопрос несет больше информации! Следовательно, чем меньше вероятность какого-либо события, тем большую неопределенность снимает сообщение о его появлении и, следовательно, тем большую информацию оно несет.

Предположим, что какое-то событие имеет m равновероятных исходов. Таким событием может быть, например, появление любого символа из алфавита, содержащего m таких символов. Как измерить количество информации, которое может быть передано при помощи такого алфавита? Это можно сделать, определив число N возможных сообщений, которые могут быть переданы при помощи этого алфавита. Если сообщение формируется из одного символа, то N = m, если из двух, то N = m · m = m2. Если сообщение содержит n символов (n – длина сообщения), то N = mn. Казалось бы, искомая мера количества информации найдена. Ее можно понимать как меру неопределенности исхода опыта, если под опытом подразумевать случайный выбор какого-либо сообщения из некоторого числа возможных. Однако эта мера не совсем удобна. При наличии алфавита, состоящего из одного символа, т.е. когда m = 1, возможно появление только этого символа. Следовательно, неопределенности в этом случае не существует, и появление этого символа не несет никакой информации. Между тем, значение N при m = 1 не обращается в нуль. Для двух независимых источников сообщений (или алфавита) с N1 и N2 числом возможных сообщений общее число возможных сообщений N = N1N2, в то время как логичнее было бы считать, что количество информации, получаемое от двух независимых источников, должно быть не произведением, а суммой составляющих величин.

Выход из положения был найден Р. Хартли, который предложил информацию I, приходящуюся на одно сообщение, определять логарифмом общего числа возможных сообщений N:

I (N) = log N (1)

Если же все множество возможных сообщений состоит из одного (N = m = 1), то I (N) = log 1 = 0, что соответствует отсутствию информации в этом случае. При наличии независимых источников информации с N1 и N2 числом возможных сообщений

I (N) = log N = log N1N2 = log N1 + log N2,

т.е. количество информации, приходящееся на одно сообщение, равно сумме количеств информации, которые были бы получены от двух независимых источников, взятых порознь. Формула, предложенная Хартли, удовлетворяет предъявленным требованиям. Поэтому ее можно использовать для измерения количества информации.

Если возможность появления любого символа алфавита равновероятна (а мы до сих пор предполагали, что это именно так), то эта вероятность р = 1/m. Полагая, что N = m,

I = log N = log m = log (1/p) = – log p, (2)

т.е. количество информации на каждый равновероятный сигнал равно минус логарифму вероятности отдельного сигнала.

Полученная формула позволяет для некоторых случаев определить количество информации. Однако для практических целей необходимо задаться единицей его измерения. Для этого предположим, что информация – это устраненная неопределенность. Тогда в простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями, например между двумя качественными признаками: положительным и отрицательным импульсами, импульсом и паузой и т.п. Количество информации, переданное в этом простейшем случае, наиболее удобно принять за единицу количества информации. Именно такое количество информации может быть получено, если применить формулу (2) и взять логарифм по основанию 2. Тогда

I = – log2 p = – log2 1/2 = log2 2 = 1.

Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита. Название bit образовано из двух начальных и последней букв английского выражения binary unit, что значит двоичная единица. Бит является не только единицей количества информации, но и единицей измерения степени неопределенности. При этом имеется в виду неопределенность, которая содержится в одном опыте, имеющем два равновероятных исхода.

На количество информации, получаемой из сообщения, влияет фактор неожиданности его для получателя, который зависит от вероятности получения того или иного сообщения. Чем меньше эта вероятность, тем сообщение более неожиданно и, следовательно, более информативно. Сообщение, вероятность которого высока и, соответственно, низка степень неожиданности, несет немного информации.

Р. Хартли понимал, что сообщения имеют различную вероятность и, следовательно, неожиданность их появления для получателя неодинакова. Но, определяя количество информации, он пытался полностью исключить фактор «неожиданности». Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы. На практике эти условия выполняются редко. При определении количества информации необходимо учитывать не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность их получения.

Наиболее широкое распространение при определении среднего количества информации, которое содержится в сообщениях от источников самой разной природы, получил подход. К Шеннона. Рассмотрим следующую ситуацию.

Источник передает элементарные сигналы k различных типов. Проследим за достаточно длинным отрезком сообщения. Пусть в нем имеется N1 сигналов первого типа, N2 сигналов второго типа, ..., Nk сигналов k-го типа, причем N1 + N2 + ... + Nk = N – общее число сигналов в наблюдаемом отрезке, f1, f2, ..., fk – частоты соответствующих сигналов. При возрастании длины отрезка сообщения каждая из частот стремится к фиксированному пределу, т.е.

lim fi = pi, (i = 1, 2, ..., k),

где рi можно считать вероятностью сигнала. Предположим, получен сигнал i-го типа с вероятностью рi, содержащий – log pi единиц информации. В рассматриваемом отрезке i-й сигнал встретится примерно Npi раз (будем считать, что N достаточно велико), и общая информация, доставленная сигналами этого типа, будет равна произведению Npi log рi. То же относится к сигналам любого другого типа, поэтому полное количество информации, доставленное отрезком из N сигналов, будет примерно равно

Чтобы определить среднее количество информации, приходящееся на один сигнал, т.е. удельную информативность источника, нужно это число разделить на N. При неограниченном росте приблизительное равенство перейдет в точное. В результате будет получено асимптотическое соотношение – формула Шеннона

В последнее время она стала не менее распространенной, чем знаменитая формула Эйнштейна Е = mc2. Оказалось, что формула, предложенная Хартли, представляет собой частный случай более общей формулы Шеннона. Если в формуле Шеннона принять, что

р1 = p2 = ... = рi = ... =pN = 1/N, то

Знак минус в формуле Шеннона не означает, что количество информации в сообщении – отрицательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, т.е. log pi – величина отрицательная, то произведение вероятности на логарифм числа будет положительным.

Кроме этой формулы, Шенноном была предложена абстрактная схема связи, состоящая из пяти элементов (источника информации, передатчика, линии связи, приемника и адресата), и сформулированы теоремы о пропускной способности, помехоустойчивости, кодировании и т.д.

В результате развития теории информации и ее приложений идеи Шеннона быстро распространяли свое влияние на самые различные области знаний. Было замечено, что формула Шеннона очень похожа на используемую в физике формулу энтропии, выведенную Больцманом. Энтропия обозначает степень неупорядоченности статистических форм движения молекул. Энтропия максимальна при равновероятном распределении параметров движения молекул (направлении, скорости и пространственном положении). Значение энтропии уменьшается, если движение молекул упорядочить. По мере увеличения упорядоченности движения энтропия стремится к нулю (например, когда возможно только одно значение и направление скорости). При составлении какого-либо сообщения (текста) с помощью энтропии можно характеризовать степень неупорядоченности движения (чередования) символов. Текст с максимальной энтропией – это текст с равновероятным распределением всех букв алфавита, т.е. с бессмысленным чередованием букв, например: ЙХЗЦЗЦЩУЩУШК ШГЕНЕЭФЖЫЫДВЛВЛОАРАПАЯЕЯЮЧБ СБСЬМ. Если при составлении текста учтена реальная вероятность букв, то в получаемых таким образом «фразах» будет наблюдаться определенная упорядоченность движения букв, регламентируемая частотой их появления: ЕЫТ ЦИЯЬА ОКРВ ОДНТ ЬЧЕ МЛОЦК ЗЬЯ ЕНВ ТША.

При учете вероятностей четырехбуквенных сочетаний текст становится настолько упорядоченным, что по некоторым формальным признакам приближается к осмысленному: ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО. Причиной такой упорядоченности в данном случае является информация о статистических закономерностях текстов. В осмысленных текстах упорядоченность, естественно, еще выше. Так, в фразе ПРИШЛ... ВЕСНА мы имеем еще больше информации о движении (чередовании) букв. Таким образом, от текста к тексту увеличиваются упорядоченность и информация, которой мы располагаем о тексте, а энтропия (мера неупорядоченности) уменьшается.

Используя различие формул количества информации Шеннона и энтропии Больцмана (разные знаки), Л. Бриллюэн охарактеризовал информацию как отрицательную энтропию, или негэнтропию. Так как энтропия является мерой неупорядоченности, то информация может быть определена как мера упорядоченности материальных систем.

В связи с тем, что внешний вид формул совпадает, можно предположить, что понятие информация ничего не добавляет к понятию энтропии. Однако это не так. Если понятие энтропии применялось ранее только для систем, стремящихся к термодинамическому равновесию, т.е. к максимальному беспорядку в движении ее составляющих, к увеличению энтропии, то понятие информации обратило внимание и на те системы, которые не увеличивают энтропию, а наоборот, находясь в состоянии с небольшими значениями энтропии, стремятся к ее дальнейшему уменьшению.

Теория информации «переросла» рамки поставленных первоначально перед ней задач. Ее начали применять к более широкому кругу явлений. Увеличение количества информации стали связывать с повышением сложности системы, с ее прогрессивным развитием. Так, по данным некоторых исследований, при переходе от атомного уровня к молекулярному количество информации увеличивается в 103 раза. Количество информации, относящейся к организму человека, примерно в 1011 раз больше информации, содержащейся в одноклеточном организме.

Процесс развития в определенном аспекте можно моделировать, используя процесс передачи информации. Применение информационной модели развития дает возможность прояснить механизм прогресса с учетом усложнения, упорядочения и повышения степени организации материальных систем.

Трудно переоценить значение идей теории информации в развитии самых разнообразных научных областей.

Однако, по мнению К. Шеннона, все нерешенные проблемы не могут быть решены при помощи таких магических слов, как «информация», «энтропия», «избыточность»

Теория информации основана на вероятностных, статистических закономерностях явлений. Она дает полезный, но не универсальный аппарат. Поэтому множество ситуаций не укладываются в информационную модель Шеннона. Не всегда представляется возможным заранее установить перечень всех состояний системы и вычислить их вероятности. Кроме того, в теории информации рассматривается только формальная сторона сообщения, в то время как смысл его остается в стороне. Например, система радиолокационных станций ведет наблюдение за воздушным пространством с целью обнаружения самолета противника Система S, за которой ведется наблюдение, может быть в одном из двух состояний x1 – противник есть, x2 – противника нет. Важность первого сообщения нельзя оценить с помощью вероятностного подхода. Этот подход и основанная на нем мера количества информации выражают, прежде всего, «структурно-синтаксическую» сторону ее передачи, т.е. выражают отношения сигналов. Однако понятия «вероятность», «неопределенность», с которыми связано понятие информации, предполагают процесс выбора. Этот процесс может быть осуществлен только при наличии множества возможностей. Без этого условия, как можно предположить, передача информации невозможна.

Рассмотрим пример Р. Эшби. Заключенного должна навестить жена Сторож знает, что она хочет сообщить мужу, пойман ли его сообщник. Ей не разрешено делать никаких сообщений. Но сторож подозревает, что они договорились о каком-то условном знаке. Вот она просит послать мужу чашечку кофе. Как сторож может добиться, чтобы сообщение не было передано? Он рассуждает так: может быть, она условилась передать ему сладкий чай или несладкий кофе, тогда я могу помешать им, добавив в кофе сахару и сказав об этом заключенному. Может быть, она условилась послать или не послать ему ложку, тогда я могу изъять ложку и сказать ему, что передача ложек воспрещена. Она может послать ему не кофе, а чай, но все знают, что в это время выдается только кофе. И сторож, стремясь пресечь всякую возможность связи, сводит все возможности к одной – только кофе, только с сахаром, только без ложки. Если все возможности сведены к одной, связь прерывается, и посылаемый напиток лишен возможности передать информацию.

Р. Эшби осуществил переход от толкования информации как «снятой» неопределенности к «снятой» неразличимости. Он считал, что информация есть там, где имеется (дано или выявляется) разнообразие, неоднородность. В данном случае единицей измерения информации может быть элементарное различие, т.е. различие между двумя объектами в каком-либо одном фиксированном свойстве. Чем больше в некотором объекте отличных (в строго определенном смысле) друг от друга элементов, тем больше этот объект содержит информации. Информация есть там, где имеется различие хотя бы между двумя элементами. Информации нет, если элементы неразличимы.

В середине 50-х годов, используя материал статистической теории информации, Р. Эшби изложил концепцию разнообразия, согласно которой под разнообразием следует подразумевать характеристику элементов множества, заключающуюся в их несовпадении. Так, множество, в котором все элементы одинаковы (допустим, это последовательность а, а, а, и т.д.), по мнению Эшби, не имеет «никакого» разнообразия, ибо все его элементы одного типа. Если разнообразие его измерить логарифмически, то получим логарифм единицы (единица означает однотипность элементов множества) – нуль. Множество с таким разнообразием соответствует единичной вероятности выбора элемента, т.е. какой элемент множества не был бы выбран, он будет одного и того же типа. Суть концепции разнообразия, по Эшби, заключается в утверждении, что теория информации изучает процессы «передачи разнообразия» по каналам связи, причем «информация не может передаваться в большем количестве, чем это позволяет количество разнообразия».

Исходя из идей основоположника кибернетики Н. Винера и результатов, полученных К. Шенноном, Эшби открыл закон, названный законом необходимого разнообразия, который так же, как закон Шеннона для процессов связи, может быть общим для процессов управления. Суть этого закона состоит в следующем. Для управления состоянием кибернетической системы нужен регулятор, ограничивающий разнообразие возмущений, которые могут разрушить систему. При этом регулятор допускает такое их разнообразие, которое необходимо и полезно для системы.

При допустимом разнообразии состояний кибернетической системы Рc и разнообразии возмущений Рв количество разнообразия регулятора Рр=Рв/Рc. Эта формула является одной из количественных форм выражения закона необходимого разнообразия. В логарифмической форме этот закон имеет вид

log Pp = log Рв/Рc или log Pp = log Рв – log Рc.

Обозначив соответствующие логарифмы разнообразия как информационные содержания систем, получим Iв = Iр + Iс. Из формулы следует, что сумма информационных содержаний системы и регулятора равна информационному содержанию внешних возмущений.

Регулирование, возмущения – это термины, связанные с процессом управления. Поэтому закон необходимого разнообразия является одним из основных в кибернетике – науке об управлении.

Если в начале книги понятие информации рассматривалось применительно только к процессам связи, а затем использовалось для характеристики сложности и упорядоченности материальных систем, то теперь уже речь идет об управлении ими! Впитывая всевозможные взгляды и концепции, понятие информации становится более емким и «дорастает» до уровня философских категорий – самых общих понятий, которыми только можно оперировать вообще! Если, например, понятие информации связывать с разнообразием, что вполне правомерно, то причиной существующего в природе разнообразия, по мнению академика В.М. Глушкова, можно считать неоднородность в распределении энергии (или вещества) в пространстве и во времени. Информацию же В.М. Глушков характеризует как меру этой неоднородности Информация существует постольку, поскольку существуют сами материальные тела и, следовательно, созданные ими неоднородности Всякая неоднородность несет с собой какую-то информацию.

С понятием информации в кибернетике не связано свойство ее осмысленности в обычном житейском понимании. Многие специалисты считают, что информация охватывает как сведения, которыми люди обмениваются между собой, так и сведения, существующие независимо от людей. Например, звезды существуют независимо от того, имеют люди информацию о них или нет. Существуя объективно, они создают неоднородность в распределении вещества и поэтому являются источниками информации.

В данном случае понятие информации определяется уже на уровне таких изначальных понятий философии, как материя и энергия. По мнению В.М. Глушкова, информация независима от нашего сознания. Ее объективный характер основан на объективности существования ее источника – разнообразия. Для того чтобы построить строгую теорию информации, К. Шеннону пришлось отвлечься от ее смысла. В.М. Глушков развивает этот подход, предлагая очень общее и емкое понятие информации и подчеркивая при этом ее независимость от получателя, что оставляет в стороне и смысловую сторону информации.

Очень близка к «разнообразностной» трактовке информации идея алгоритмического измерения ее количества, выдвинутая в 1965 г. А.Н. Колмогоровым. Суть ее заключается в том, что количество информации определяется как минимальная длина программы, позволяющей преобразовать один объект (множество) в другой (множество). Чем больше различаются два объекта между собой, тем сложнее (длиннее) программа перехода от одного объекта к другому. Так, воспроизвести последовательность букв а, а,..., а можно при помощи очень простой программы. Несколько большей окажется длина программы, восстанавливающей последовательность а, в, с, а, в, с,... Длина программы при этом измеряется количеством команд (операций), позволяющих воспроизвести последовательность. Этот подход, в отличие от подхода Шеннона, не базирующийся на понятии вероятности, позволяет, например, определить прирост количества информации, содержащейся в результатах расчета, по сравнению с исходными данными. Вероятностная теория информации на этот вопрос не может дать удовлетворительного ответа.

До сих пор мы рассматривали подходы, связанные с количественным аспектом понятия информации без учета смысловой стороны информации. Эти подходы позволили привлечь к изучению информации точные математические методы. В результате были созданы всевозможные кибернетические устройства (понятие информации является центральным в кибернетике), вычислительные машины и пр. Все это стало возможным благодаря достижениям теории информации. Человек научился ее преобразовывать, кодировать и передавать на огромные расстояния с непостижимой точностью.

Классическая теория информации Шеннона, значительно дополненная и обогащенная новыми подходами, все же не может охватить всего многообразия понятия информации и, в первую очередь, ее содержательного аспекта. Теория информации К. Шеннона также не занимается определением ценности информации. Количество информации ее интересует лишь с точки зрения возможности передачи данных сообщении оптимальным образом.

В нашей стране и за рубежом ведутся интенсивные и серьезные исследования в области машинного перевода. Однако, если перевод технических текстов уже стал на сегодняшний день реальностью, то с переводом художественной литературы, несравненно более богатой смысловыми оттенками, подтекстом, образными выражениями, компьютеры справляются пока гораздо хуже.

Попытки оценить не только количественную, но и содержательную сторону информации дали толчок к развитию семантической (смысловой) теории информации. Исследования в этой области теснее всего связаны с семиотикой – теорией знаковых систем. Одним из важнейших свойств информации, которое мы можем наблюдать, является ее неотделимость от носителя: во всех случаях, когда мы сталкиваемся с любыми сообщениями, эти сообщения выражены некоторыми знаками, словами, языками Семиотика исследует знаки как особый вид носителей информации. При этом знаком является условное изображение элемента сообщения, словом – совокупность знаков, имеющих смысловое значение, языком – словарь и правила пользования им. Таким образом, рассуждая о количестве, содержании и ценности информации, содержащейся в сообщении, можно исходить из возможностей соответствующего анализа знаковых структур.

В качестве знаковых систем используются естественные и искусственные языки, в том числе информационные и языки программирования, различные системы сигнализации, логические, математические и химические символы. Они служат средством обмена информацией между высокоорганизованными системами (способными к обучению и самоорганизации). Примером могут быть живые организмы, машины с определенными свойствами.

Рассматривая знаковые системы, выделяют три основных аспекта их изучения: синтактику, семантику и прагматику.

Синтактика изучает синтаксис знаковых структур, т.е. способы сочетаний знаков, правила образования этих сочетаний и их преобразований безотносительно к их значениям. Отметим в связи с этим, что рассматриваемые ранее способы определения количества информации можно отнести к синтаксическим способам.

Семантика изучает знаковые системы как средства выражения смысла, определенного содержания, т.е. правила интерпретации знаков и их сочетаний, смысловую сторону языка.

Прагматика рассматривает соотношение между знаковыми системами и их пользователями, или приемниками-интерпретаторами сообщений. Иными словами, к прагматике относится изучение практической полезности знаков, слов и, следовательно, сообщений, т.е. потребительской стороны языка.

Основная идея семантической концепции информации заключается в возможности измерения содержания (предметного значения) суждений. Но содержание всегда связано с формой, поэтому синтаксические и семантические свойства информации взаимосвязаны, хотя и различны. Получается, что содержание все-таки можно измерить через форму, т.е. семантические свойства информации выразить через синтаксические. Поэтому и исследования семантики базировались на понятии информации как уменьшении или устранении неопределенности, с которым мы уже знакомы.

Сразу же заметим, что методы точного количественного определения смыслового содержания информации в настоящее время еще не разработаны, поэтому мы ограничимся только кратким описанием подходов к решению этой проблемы.

Первую попытку построения теории семантической информации предприняли Р. Карнап и И. Бар-Хиллел. Они положили начало применению идей и методов символической логики и логической семантики к анализу информационного содержания языка науки. Р. Карнап и И. Бар-Хиллел предложили определять величину семантической информации посредством так называемой логической вероятности, которая представляет собой степень подтверждения той или иной гипотезы. При этом количество семантической информации, содержащейся в сообщении, возрастает по мере уменьшения степени подтверждения априорной гипотезы. Если вся гипотеза построена на эмпирических данных, полностью подтверждаемых сообщением, то такое сообщение не приносит получателю никаких новых сведений. Логическая вероятность гипотезы при этом равна единице, а семантическая информация оказывается равной нулю. Гипотеза здесь полностью вытекает из данных опыта. И наоборот, по мере уменьшения степени подтверждения гипотезы, или запаса знаний, количество семантической информации, доставляемой сообщением, возрастает. Чем больше логическая вероятность высказывания, тем меньше должна быть мера его содержания, т.е. чем больше описаний состояния «разрешает» то или иное высказывание, тем меньше должна быть его семантическая информативность и, наоборот, чем больше описаний состояния им исключается, тем больше должна быть его информативность. Таким образом, семантико-информационное содержание высказывания определяется не тем, что содержит данное высказывание, а тем, что оно исключает.

Концепция Карнапа – Бар-Хиллела, получившая впоследствии развитие в трудах Кемени, является только началом исследований в области измерения содержания передаваемой информации. Эта концепция позволяет, например, выявить связь гипотезы с начальным достоверным значением, в частности, сделать заключение о степени подтверждения гипотезы.

Финский ученый Я. Хинтикка распространил основные идеи семантической теории информации Карнапа и Бар-Хиллела на логику высказываний. Для многих ситуаций (наблюдения, измерения, подтверждения гипотезы, научного предсказания, объяснения) он предложил метод определения уменьшения неопределенности, которое, например, претерпевает гипотеза g после получения того или иного эмпирического факта h или вообще изменения информационного содержания высказывания g при получении высказывания h.

Однако, несмотря на определенные достижения, концепция Карнапа – Бар-Хиллела оказалась малопригодной для анализа содержания естественного языка. Эта теория, основанная на вероятностной логике, неприменима к анализу основного массива научного знания – достоверного знания. С точки зрения указанной теории, например, высказывание «На Луне есть нефть» содержит информацию, а высказывание «На Земле есть нефть» лишено информации, поскольку это достоверное знание. Такая ситуация представлялась довольно парадоксальной!

Подчеркнем еще раз в связи с этим, что семантическая теория информации еще молода и делает лишь первые шаги. Некоторые исследователи, например, советский ученый Е.К. Войшвилло, становятся на путь синтеза статистического (Шеннон) и логико-семантического (Карнап, Бар-Хиллел) подходов к информации.

Об одной очень интересной модели семантической информации мы расскажем ниже, а сейчас рассмотрим прагматические концепции информации.

Изучение отношений между знаками и их потребителями с точки зрения использования получаемой информации и влияния знаков на поведение систем составляет основу прагматической теории информации. Для всех подходов здесь характерно стремление связать понятие прагматической информации с целью, целенаправленным поведением и выдвинуть те или иные количественные меры ценности информации.

Исходя из этих соображений, А.А. Харкевич предложил связать меру ценности информации с изменением вероятности достижения цели при получении этой информации:

I = log (p1/p0) = log p1 – log p0,

где р0 и р1 – вероятность достижения цели соответственно до и после получения информации.

А.А. Харкевич первым подчеркнул фундаментальный характер связи прагматических свойств информации с категорией цели, понимаемой как опережающее отражение, модель будущего результата деятельности.

Другой подход к проблеме ценности информации осуществлен М.М. Бонгардом. Он вводит понятие «полезная информация», связывая сообщение с тем, какую задачу решает получатель, что он знает до прихода сообщения и как его истолковывает. Этот подход имеет вероятностно-алгебраическую сущность и носит более общий характер, чем подход, предложенный А.А. Харкевичем.

Значительную роль в развитии прагматической теории информации сыграли работы американского логика Д. Харраха, поставившего перед собой цель показать, как символическая логика и теория семантической информации могут быть использованы для анализа некоторых аспектов человеческой коммуникации. Эту цель он пытается достигнуть путем создания «модели того, как разумный получатель оценивает последовательность сообщений на основе определенных семантических и прагматических свойств». Харрах предлагает обеспечить получателя «программой обработки сообщений», с помощью которой извлекается из получаемых сообщений «годная к употреблению сумма сообщений». Именно к этому результату переработки сообщений, а не к сообщениям в их первоначальной форме могут быть применены количественные меры информации. Созданная Харрахом логическая модель коммуникации служит тем языковым каркасом, в рамках которого программа может быть образована и применена.

Следует отметить, что прагматические и семантические оценки зачастую трудно разделить. В некоторых случаях они сливаются. В самом деле, семантические оценки характеризуют смысл, содержательность сообщений, а прагматические – их ценность, полезность. Но совершенно очевидно, что бессодержательные сообщения не могут быть полезными.

Как семантические, так и прагматические теории информации могут быть практически применены пока только к очень небольшому числу явлений реальной действительности. Но не следует забывать, что они имеют еще и теоретическое значение. В борьбе идей, мнений, гипотез и выводов, в их соперничестве и сотрудничестве рождается истина.

По каждому из перечисленных направлений исследований в теории информации написано много трудов. Несмотря на это, фронт наступления на понятие информации широк: его пристально изучают философы, биологи, физики, математики. Исследования, проводимые в разных направлениях, способствуют углублению понятия информации, подчеркивая в нем оттенки, специфичные для той или иной области знаний Огромна практическая ценность полученных результатов.

Однако, что же такое информация? Можно ли ей дать одно исчерпывающее определение?

Это сложное простое понятие!

Теперь рассмотрим другое определение информации: «информация – мера упорядоченности». Это определение также является одним из вариантов… В настоящее время, таким образом, существует довольно сложная и разветвленная… Указывая на различие живой и неживой материи, В.И. Ленин призывал искать и связь между этими формами ее существования.…

Наука о научной информации

В поисках «виновника» кризиса

Прежде всего обратим внимание на то, что информационная нагрузка распределяется среди членов общества неравномерно, т.е. информационный кризис… В первую очередь, это, конечно, ученые и специалисты Они как научный авангард… Научный труд как разновидность человеческого труда обладает весьма интересным свойством предметом его, равно, как и…

Итак, информатика!

Информатика – сравнительно молодая, бурно развивающаяся научная дисциплина. Предмет исследования ее постоянно уточняется. По этой причине разными… Известные советские ученые А.И. Михайлов, А.И. Черный, Р.С. Гиляревский дают… Здесь наряду с уже известным читателям понятием научной информации фигурирует и понятие, которому еще не дано…

Почему академики не учат первоклассников?

Тезаурус – значит «сокровищница»

рассматривая различные определения понятия информации и связанные с ними теории, мы сознательно не упомянули об одной модели семантической информации, о которой мы хотели бы рассказать отдельно. Но сначала попытаемся разобраться в двух часто встречающихся ситуациях.

Ситуация первая – когда вам сообщают что-либо уже известное, например, что дважды два – четыре, что после ночи наступает день, а Волга впадает в Каспийское море.

Ситуация вторая – когда вам сообщают что-либо на неизвестном вам языке, когда вы видите совершенно незнакомую математическую формулу, пусть даже имеющую богатый смысл, т.е. нечто совершенно вам непонятное.

Обе ситуации можно описать при помощи выражений «известно все» или «неизвестно ничего». Эти выражения говорят о противоположности двух описанных ситуаций. Однако у них есть и нечто общее. Этим общим является наличие всех компонентов коммуникации: источника и приемника информации, потока информации от источника к приемнику. Однако, как в первой, так и во второй ситуации знания последнего остались без изменений, т.е. информация была передана, приемник ее получил, но обнаружить это невозможно! Если мозг приемника не отразил никаких изменении о внешнем мире после получения сообщения, а это случилось как в первой, так и во второй ситуациях, следовательно, передачи, точнее говоря, получения информации не произошло.

Итак, чтобы определить, несло ли данное сообщение для его получателя информацию, или нет, необходимо зафиксировать изменения, которые произошли в его представлении об окружающем мире, в его знаниях после получения сообщения. Для этого, в свою очередь, надо определить, как «устроены» знания человека, и в чем выражаются те изменения, о которых мы говорим. Иными словами, надо построить модель передачи семантической информации, так как именно эта модель, в отличие от структурно-синтаксических концепций информации, касается смысла сообщений.

Такая модель была предложена советским ученым Ю.А. Шрейдером. Суть ее состоит в том, что количество информации, извлекаемое человеком из сообщения, можно определить степенью изменения его знаний. Действительно, если о получении информации судить только по изменениям в знаниях, то чем больше изменений произошло в знаниях, тем больше информации было получено. Это предположение, вероятно, не вызовет возражений.

Однако каким же образом определить степень изменения в знаниях. Например, в школе учитель может легко определить степень изменения знаний учеников после прослушанного урока с помощью простого опроса. Однако он не может объяснить, почему степень изменения знаний учеников неодинакова, почему одни из них воспринимают материал быстрее других? Разобраться в самом механизме изменения знания человека позволяет модель Ю.А. Шрейдера.

Все здание человеческого знания, согласно этой модели, можно рассматривать в виде совокупности смысловыражающих элементов и смысловых отношений между ними. Множество смысловыражающих элементов и смысловых отношений на нем называется тезаурусом. Слово «тезаурус» происходит от греческого «θβσανρος» – сокровище, сокровищница. И вы, наверное, согласитесь с тем, что все огромное множество понятии и отношении между ними, иными словами, тезаурус, и составляет главное сокровище человека – его знания. Таким образом, тезаурус – это знание, представленное в виде понятий и отношений между ними, т.е. определенным образом структуризованное знание.

Фрагмент знания, например, образ дерева, растущего на земле, можно представить в виде смысловыражающих элементов: «дерево», «земля» и смыслового отношения между ними – «расти на». Таким же образом можно представить и любой фрагмент нашего знания. Очень важно, что понятие «дерево» можно также рассматривать в виде элементов «ствол», «ветви», «листья», связанных отношениями: «быть частью», «расти на» и т.д. Более сложные понятия образуются из более простых при помощи соответствующих отношений. Тезаурус поэтому имеет сложную структуру, в которой одни понятия и отношения, группируясь, образуют другие, в свою очередь образующие все более сложные понятия и отношения. И так как тезаурус является способом представления знаний, а знания у разных людей различны, то, естественно, отличаются и соответствующие им тезаурусы. Тезаурус ребенка, например, намного беднее тезауруса взрослого человека, т.е. содержит гораздо меньше элементов и отношений между ними.

Чтобы полнее представить понятие тезауруса, можно попытаться получить его графическую интерпретацию. Для этого смысловыражающие элементы представим в виде точек, а смысловые отношения – в виде соединяющих эти точки отрезков. Тогда тезаурус имеет образ «паутинки».

Подробнее с понятием тезауруса мы познакомимся ниже, а сейчас вернемся к основанной на нем модели передачи семантической информации. Теперь уже можно четко сформулировать смысл этой модели. Заменяя понятие «знание» понятием «тезаурус», можно утверждать, что человек получает информацию только в том случае, когда в его знаниях, т.е. в его тезаурусе после получения сообщения произошли какие-либо изменения. И чем больше изменений внесло сообщение в тезаурус приемника, тем большее количество информации он получил из этого сообщения. Изменить же тезаурус – это значит изменить его смысловыражающие элементы или смысловые отношения между ними.

Теперь попытаемся применить эту модель к процессу передачи информации. Пусть источник, обладающий тезаурусом A, передает какое-то сообщение приемнику, обладающему тезаурусом Q. Сообщение содержит фрагмент представлений источника о внешнем мире, т.е. фрагмент его тезауруса. Этот фрагмент при передаче сообщения как бы накладывается на тезаурус приемника. В результате происходит их сопоставление, сравнение. Рассмотрим возможные варианты этого процесса.

Если в тезаурусе Q фрагмент тезауруса A (в дальнейшем вместо выражений тезаурус Q и тезаурус A мы будем употреблять соответственно Q и А) содержится целиком, то никаких изменений в Q не происходит, следовательно, Q не извлекает из сообщения никакой информации. Этот случай совпадает с первой из двух ситуаций, о которых мы говорили ранее, когда сообщение содержит сведения, уже известные получателю. Графически это можно представить как полное вхождение, включение фрагмента A в фрагмент Q.

Предположим теперь, что какая-то часть фрагмента A содержится в Q. Это значит, что в Q можно обнаружить такие же элементы и отношения, как и во фрагменте A; в последнем, кроме этого, содержатся компоненты (элементы и отношения), которых нет в Q. Фрагменты A и Q таким образом, имеют «общую часть» Графически этот случай может быть выражен как пересечение двух тезаурусов.

Общая часть компонентов играет важную роль в процессе восприятия сообщения приемником. Так как составляющие ее компоненты связаны с остальными компонентами фрагмента A, то «неизвестные» Q (т.е. не содержащиеся в Q) компоненты могут быть восприняты Q как комбинация, сочетания «уже известных» (содержащихся в Q) компонентов, входящих в эту общую часть. Для иллюстрации сказанного опять обратимся к схеме.

Фрагмент A имеет элемент X, который не содержится в Q. Однако во фрагменте A Х связан отношениями b, с, d с элементами B, С, D, которые содержатся в Q. Тогда Q воспринимает новое для него понятие X, такое же, как во фрагменте A, сочетание B, С, D, b, с, d. Тезаурус Q изменяет свою структуру, образуя новую комбинацию из уже имеющихся компонентов. Этой комбинации приписывается имя неизвестного элемента X, так как именно с ним связаны общие для фрагмента A и Q компоненты. Так образуется новый смысловыражающий элемент, который становится составной частью тезауруса приемника.

Эти рассуждения, вероятно, нуждаются в примере. Представьте, что вы говорите малышу: «Мы были в лесу» «Мы были» – это он знает, а слово «лес» ему пока непонятно, поэтому смысл всего сказанного остается неясным. Тогда вы объясните, что «лес» – это, когда много-много деревьев Понятие «дерево» и «много-много» малышу скорее всего знакомы. И вот сочетание этих понятий и приводит к образованию нового понятия, тек изменению тезауруса. Следовательно, объясняя что-либо новое, непонятное выражают через известное. Возвращаясь опять к модели, заметим, что если сообщение, т.е. фрагмент тезауруса A, содержит как уже имеющиеся в тезаурусе Q элементы и отношения, так и новые для него, то изменение Q под действием фрагмента A осуществляется путем выражения новых элементов и отношений через уже имеющиеся. Если это не удается, следовательно, ввести новое понятие в тезаурус и изменить его невозможно.

Рассмотрим еще один пример. Попытаемся объяснить ребенку, что «Лес – это совокупность значительного количества деревьев, произрастающих в непосредственной близости друг от друга». Конечно, малыш получит очень мало информации из такого сообщения, ведь он узнает в нем только слова «деревья» да, может быть, «друг от друга». Знание только этих понятий оказывается недостаточным для того, чтобы с их помощью выразить остальные. Тезаурус приемника информации в данном случае, возможно, и зафиксирует связь между понятием «лес» и «деревья», но характер этой связи останется нераскрытым. Добавление в тезаурусе к понятию «деревья» неизвестной смысловой связи с неизвестным смысловыражающим элементом (им является понятие «лес») и будет тем изменением, которое внесет сообщение в тезаурус приемника. Незначительные изменения в тезаурусе получателя свидетельствуют о незначительном количестве информации, которое он извлек из сообщения.

Когда в фрагмент A входят элементы и отношения, каких нет в Q, то приемник не извлечет из сообщения никакой информации и изменения его тезауруса не произойдет. Этот случай соответствует второй из рассмотренных выше ситуаций, когда сообщение является «полной загадкой» для его получателя.

Отсюда следует, что модель, использующая понятие тезауруса, удобна для описания процесса коммуникации.

Если теперь предположить, что чем больше тезаурус приемника, тем больше вероятность того, что в нем будут содержаться элементы и отношения, составляющие тезаурус сообщения, то количество информации, получаемое из сообщения, будет зависеть в итоге от величины тезауруса приемника. Зависимость свидетельствует о том, что минимальному значению величины тезауруса θmin соответствует нулевое количество полученной из сообщения информации. Такое же (нулевое) количество информации соответствует и максимальному тезаурусу θmax. Наибольшее же количество информации Jmax извлекается приемником из сообщения при величине его тезауруса, близкой к средней.

Фактически величина тезауруса приемника измеряется относительно тезауруса источника информации. Таким образом, эффективность передачи информации зависит от соотношения тезаурусов источника и приемника.

На основании этих выводов можно объяснить, например, почему академики обычно не учат первоклассников. Если сравнить их тезаурусы, то нетрудно убедиться в том, что тезаурус академика несравненно богаче, шире и сложнее тезауруса школьника первоклассника. Это значит, что тезаурус приемника очень мал по сравнению с тезаурусом источника. Видно, что мало и количество информации, извлекаемое в этом случае. Следовательно, такое обучение неэффективно, так как первоклассники, не получая значительной информации от академика, практически ничему не научатся.

Если учителями будут школьники, а академиками – ученики, то на графике мы переместимся в точку 3 и увидим, что при приближении к этой точке значение количества воспринимаемой информации опять очень мало. И академикам, конечно, не стоит учиться у первоклассников.

Чтобы повысить эффективность обучения, иными словами, увеличить количество информации, извлекаемой приемником из сообщения, очевидно, необходимо уменьшить разницу в тезаурусах ученика и учителя (приемника и источника). Поскольку нам надо учить первоклассников, т.е. исходить из наперед заданной величины тезауруса приемника, то необходимо уменьшить тезаурус источника информации. Сделав это, мы получим тезаурус учителя младших классов, не обладающего обширными и глубокими познаниями академика, но, как оказывается, незаменимого с точки зрения эффективного обучения первоклашек. Взглянув на график снова, мы обнаружим, что тезаурус приемника в этом случае будет находиться поблизости точки 2. При этом значение I близко к максимальному.

В процессе обучения учитель передает свои знания ученикам. При этом после каждого сообщения учителя тезаурусы учеников изменяются, приближаясь к тезаурусу учителя. В этом, наверное, и состоит задача учителя. Но что мы видим на графике?

Значение θ при этом упорно ползет от точки 2 к точке 3, а вместе с этим падает и значение I. Этого может не произойти, если учитель будет постоянно расширять свой тезаурус. Тогда соотношение тезаурусов не будет изменяться. На практике, однако, так бывает редко: обычно школьник становится студентом, а значит, место учителя занимает профессор. Оптимальное соотношение тезаурусов, таким образом, восстанавливается.

Так понятие тезауруса, являющееся основой модели семантической информации, позволяет предсказать результат коммуникации, исходя даже из очень грубой оценки соотношения тезауруса ее участников.

Понятие тезауруса применимо не только к знаниям отдельного человека, но и к знаниям человечества в целом: можно говорить о тезаурусе человечества как о сумме накопленных им знаний.

Можно сравнить тезаурусы людей различных специальностей. Если отвлечься от их носителей-людей, то можно исследовать тезаурусы специальностей или тезаурусы определенных областей знания. В качестве инструмента для исследования тезауруса может использоваться вторая сигнальная система человека – его язык. В виде плоскостей схематично изображены совокупность объектов окружающего человека мира (картина реального мира), отражение этой картины мозгом человека (план содержания), выражение этого отражения при помощи языка (план выражения).

Реально существующие объекты и отношения внешнего мира A, B и C, отражаясь мозгом человека, образуют его тезаурус, располагающийся в плане содержания. Каждому элементу и отношению плана содержания соответствует понятие, выраженное при помощи слов естественного языка. Исследуя понятия и отношения между ними, мы определим соответствующий им тезаурус. Соответствие тезауруса в плане содержания тезаурусу терминов в плане выражения не следует понимать как полную идентичность. Исследовать же тезаурус терминов гораздо легче, чем понятия и отношения, зафиксированные миллиардами нервных клеток мозга человека. Представленный в виде упорядоченного словаря понятий с указанными отношениями между ними тезаурус терминов является подлинной сокровищницей, хранилищем знаний людей на определенном уровне исторического развития.

Когда информация становится знанием

Именно так и происходит, когда совершаются «преждевременные научные открытия»: для человеческого общества они остаются некоторое время «вещью в… Факты из истории науки, на которые обращают внимание А.И. Михайлов, А.И.… 23 февраля 1826 г. в Казанском университете на заседании физико-математического факультета русский математик Н.И.…

Законы царства документов

В пространстве и во времени

Стремительный, ускоряющийся прогресс человечества был бы невозможен, если бы не развитие письменности и появление весьма удобного материала для… Что же такое документ? Если мы попытаемся перечислить предметы, которые мы… Однако существует еще один способ задать множество: перечислить характерные для принадлежащих ему объектов признаки.…

От закона Брэдфорда до ранговых распределений

Этот общеизвестный факт заставляет всерьез задуматься о том, к чему может привести такой рост. Но, может быть, наши опасения напрасны, и в… Вот как, например, изменялись документальные информационные потоки по химии. В… Примерно такой же характер роста количества документов можно проследить и в других областях науки. Было замечено, что…

Как информация стареет...

Старение... Смысл этого понятия, не требует объяснений, оно хорошо знакомо каждому. Стареет наша планета, стареют деревья. Стареют вещи и люди, которым они принадлежат. Стареют и документы. Желтеют листы книг, выцветают буквы, разрушаются обложки. Но что это? Студент, отмахиваясь в библиотеке от предлагаемой ему книги, пренебрежительно замечает: «Она уже устарела!», хотя книга с виду еще совершенно новая! Никакого секрета здесь, конечно, нет. Книга нова, однако информация, которая в ней содержится, могла устареть. Применительно к документам старение понимается не как физическое старение носителя информации, а как довольно сложный процесс старения содержащейся в нем информации. Внешне этот процесс проявляется в утрате учеными и специалистами интереса к публикациям с увеличением времени, прошедшего со дня их издания. Как показало обследование 17 библиотек, проведенное одним из отраслевых органов информации, 62% обращений приходится на журналы, возраст которых не превышает 1,5 года; 31% обращений – на журналы возрастом 1,5...5 лет; 6% – на журналы возрастом от 6 до 10 лет; 7% – на журналы более чем 10-летнего возраста. К вышедшим сравнительно давно публикациям обращаются гораздо реже, что дает повод для утверждения об их старении. Какие же механизмы управляют процессом старения документов?

Один из них непосредственно связан с кумуляцией, агрегированием научной информации. Часто материал, на изложение которого сто лет назад требовался целый курс лекций, теперь можно объяснить за несколько минут с помощью двух-трех формул. Соответствующие курсы лекций безнадежно стареют: ими никто уже не пользуется.

После получения более точных стареют приблизительные данные, а следовательно, и документы, в которых они опубликованы. Поэтому, когда говорят о старении научной информации, чаще всего имеют в виду именно ее уточнение, более строгое, сжатое и обобщенное изложение в процессе создания новой научной информации. Это возможно благодаря тому, что научная информация обладает свойством кумулятивности, т.е. допускает более краткое, обобщенное изложение.

Иногда старение документальной информации имеет другой механизм: объект, описанием которого мы располагаем, с течением времени изменяется настолько, что информация о нем становится неточной. Так стареют географические карты: на смену пустыням приходят пастбища, возникают новые города и моря.

Процесс старения можно рассматривать и как утрату информацией практической полезности для потребителя. Это означает, что он уже не может пользоваться ею для достижения стоящих перед ним целей.

И, наконец, этот процесс может быть рассмотрен с позиций изменения тезауруса человека. С этих позиций одна и та же информация может быть «устаревшей» для одного человека и «неустаревшей» для другого.

Степень старения документальной информации неодинакова для разных видов документов. На скорость ее старения влияют в разной степени очень много факторов. Особенности старения информации в каждой области науки и техники не могут быть выведены на основе абстрактных соображений или усредненных данных статистики – они органически связаны с тенденциями развития каждой отдельной отрасли науки и техники.

Для того чтобы как-то количественно оценить скорость старения информации, библиотекарь Р. Бартон и физик Р. Кеблер из США по аналогии с периодом полураспада радиоактивных веществ ввели «полупериоды жизни» научных статей. Полупериод жизни – это время, в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету. Если полупериод жизни публикаций по физике равен 4,6 года, то это означает, что 50% всех ныне используемых (цитируемых) публикаций по этой отрасли имеют возраст не более 4,6 года. Вот какие результаты получили Бартон и Кеблер: для публикаций по физике – 4,6 лет, физиологии – 7,2, химии – 8,1, ботанике – 10,0, математике – 10,5, геологии – 11,8 лет. Однако, хотя свойство старения информации и носит объективный характер, но оно не раскрывает внутреннего процесса развития данной области знания и имеет скорее описательный характер. Поэтому к выводам о старении информации следует относиться очень осторожно.

Тем не менее, даже приблизительная оценка скорости старения информации и документов, ее содержащих, имеет огромную практическую ценность: она помогает держать в поле зрения только ту часть царства документов, в которой, вероятнее всего, находятся документы, несущие основную информацию о данной науке. Это важно не только для работников научно-технических библиотек и органов научно-технической информации, но и для самих потребителей НТИ.

 

Выход в автоматизации?

Знакомьтесь: автоматизированные ИПС

Здесь мы сталкиваемся с проблемой информационного поиска – одной из важнейших проблем информатики Информационный поиск – это процесс отыскания в… Информационный поиск осуществляется при помощи информационно-поисковых систем… Информационно-поисковые системы могут быть реализованы посредством библиографической картотеки селектора, содержащего…

Лингвистические проблемы...

При поиске нужных документов с использованием каталогов мы ориентируемся не на полные тексты документов, а на их сокращенные названия, позволяющие судить о содержании документов. Эти сокращенные описания могут быть индексами УДК или какой-либо другой классификации, перечнем авторов документа, тематическими рубриками и т.д. При переходе от документа к такому сокращенному его описанию с целью использования этого описания для последующего поиска, мы как бы переводим документы на ИПЯ. По определению А.И. Михайлова, А.И. Черного, Р.С. Гиляревского, информационно-поисковый язык – это специализированный искусственный язык, предназначенный для выражения основного смыслового содержания документов или информационных запросов с целью отыскания в некотором множестве документов таких, которые отвечают на поставленный информационный запрос.

Описание содержания документа с помощью ИПЯ представляет собой поисковый образ документа (ПОД), а описание содержания запроса – поисковый образ запроса (ПОЗ). Правила составления поисковых образов документов и запросов являются правилами перевода текстов с естественного языка на ИПЯ.

При наличии массива документов и соответствующих им ПОД поиск отвечающего на запрос документа сводится к сопоставлению поисковых образов документов и запросов. Для того чтобы оценить степень их соответствия, необходимо сформулировать критерий смыслового соответствия – формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими. При формальном совпадении ПОД и ПОЗ документы считаются отвечающими на запрос. Однако такое совпадение не означает содержательного соответствия выданного документа запросу. Документ, смысловое содержание которого соответствует информационному запросу, называется релевантным этому запросу. Но если ИПЯ неточно выражает смысл документов и запросов, то может оказаться, что близкие по смыслу документы и запросы обладают разными поисковыми образами и, наоборот, у далеких по смыслу друг от друга документов поисковые образы оказываются сходными. В этом случае не все документы, формально соответствующие запросу, соответствуют ему в действительности, т.е. релевантны. Явление, при котором в ответ на запрос система выдает документы, не соответствующие запросу, называется поисковым шумом. По тем же причинам может оказаться, что часть документов, релевантных запросу, все же оказалась невыданной, тогда говорят о потерях информации. Информационный шум и потери информации могут быть выражены количественно с помощью коэффициентов полноты и точности поиска, являющихся показателями технической эффективности ИПС.

Коэффициент полноты поиска R определяется отношением числа выданных в результате поиска релевантных документов к общему числу релевантных документов, как выданных, так и оставшихся невыданными;

R = a / (a + c).

Коэффициент точности поиска P представляет собой отношение количества выданных релевантных документов к общему числу документов в выдаче: P = a / (a + b), где a – число релевантных документов в выдаче; c – число релевантных документов, оставшихся невыданными (потери информации); b – число выданных нерелевантных документов (поисковый шум).

В результате сказанного возникает вопрос: возможен ли такой ИПЯ, который бы точно передавал смысл документа, т.е. ИПЯ, обеспечивающий максимальные точность и полноту поиска? Ответ на этот вопрос очень важен для понимания специфики документальных ИПС. Компьютер может мгновенно распечатать содержание накладной №201375, хранящейся в его памяти, или из сотен фамилий работников предприятия безошибочно отыскать и начислить Сидорову Ивану Петровичу месячную заработную плату. Поиск такого рода широко используется в АСУ. В этом случае поиск производится по внешним признакам объектов: номеру накладной, фамилии и т.д. Если применить этот же принцип к поиску научных документов, то по формату и количеству страниц ЭВМ укажет адрес в хранилище всех книг и журналов конкретного формата (если, конечно, они введены в память ЭВМ).

Совершенно иначе обстоит дело с поиском документов по их содержанию. Информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Это значит, что в одном случае в ответ на запрос ИПС может выдать несколько профильных публикаций, точно отвечающих на него, не выдав релевантную информацию, рассеянную среди большого количества других источников, в другом – может выдать и релевантную информацию. Полнота поиска возрастет. Однако в этом случае будет иметь место больший поисковый шум. Исходя из этого можно сделать вывод о принципиальной невозможности одновременного достижения стопроцентной полноты и такой же точности при поиске научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.

Точному переводу содержания документа на ИПЯ – индексированию – препятствует субъективное восприятие содержания выполняющим перевод. В результате одни и те же документы могут быть проиндексированы по-разному. Неточность описания содержания документов при помощи любого ИПЯ не может не сказаться при их поиске.

Отсюда следует, что для документальных ИПС не может быть разработан ИПЯ, который обеспечивал бы стопроцентную полноту и точность выдачи документов. Однако это не значит, что не следует стремиться к максимально точной передаче содержания документов при переводе их на ИПЯ. Именно от этого во многом зависит качество работы всей ИПС. Поэтому при разработке автоматизированных ИПС большое внимание необходимо уделять выбору ИПЯ.

В настоящее время разработано большое количество информационно-поисковых языков, различных по назначению и принципам построения. Существуют, например, информационно-поисковые языки, основанные на различных классификациях, так называемые ИПЯ классификационного типа. Работа ИПС с таким ИПЯ схематично может быть представлена следующим образом.

Каталог крупной библиотеки, организованный, например, по УДК, записывается на машинный носитель информации. Запросы, поступающие от потребителей информации, также индексируются по УДК. Машина выполняет процесс сравнения ПОЗа и ПОДа, выраженных на одном и том же ИПЯ – УДК. При совпадении индексов документов с индексом запроса машина выдает ответ на запрос. Если необходимо увеличить полноту выдачи документов, то мы можем потребовать не полного, а частичного совпадения индексов УДК ПОДов и ПОЗов, изменяя таким образом критерий смыслового соответствия. Таким путем мы можем управлять процессом поиска, добиваясь нужных его характеристик.

Информационно-поисковые языки классификационного типа широко используются в автоматизированных ИПС промышленного назначения, применяемых, например, при поиске аналогов проектируемых деталей с целью заимствования технологического процесса для их обработки. Однако применение ИПЯ, основанных на той или иной классификации, в автоматизированных документальных ИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификации, что, конечно, невозможно.

Поэтому в последнее время в автоматизированных ИПС предпочтение отдается так называемым ИПЯ дескрипторного типа. Дескрипторы – это термины естественного языка, выражающие определенные понятия. Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания, называется информационно-поисковым тезаурусом (ИПТ). Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов, входящих в его состав. На практике эта идея реализуется следующим образом. Текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова, несущие основную смысловую нагрузку, так называемые ключевые слова. При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором информационно-поискового тезауруса.

Совокупность терминов тезауруса-дескрипторов, заменивших ключевые слова, образует поисковый образ документа. Точно так же на язык дескрипторов переводится и запрос. Поиск документов после этого уже можно поручить машине. ЭВМ с присущей ей быстротой просматривает массивы ПОДов и сравнивает их с ПОЗом. Цель такого сравнения – выявить дескрипторы, принадлежащие одновременно ПОДу и ПОЗу, т.е. найти пересечение множеств дескрипторов ПОДа и ПОЗа. Чем больше зона пересечения, тем точнее соответствие документа запросу. Минимальная величина зоны пересечения оговаривается принятым критерием смыслового соответствия. Изменяя его, можно варьировать точность и полноту поиска в зависимости от нужд потребителей информации.

Таковы принципы работы ИПС с ИПЯ дескрипторного типа. Качество их работы во многом зависит от совершенства применяемого информационно-поискового тезауруса. Поэтому требования к ИПТ очень высоки. В нем не должно быть, например, терминов, выражающих одно и то же понятие, т.е. синонимов – это привело бы к потерям информации при поиске. Кроме этого, должны быть зафиксированы некоторые отношения между терминами (род – вид, часть – целое и другие), служащие целям повышения точности и полноты поиска.

Обычно информационно-поисковые тезаурусы оформляются в виде книг. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые не являются дескрипторами. Присутствие в тезаурусе синонимов имеет большое значение. Поясним это на примере.

Пусть имеется два термина: «Абразивы порошкообразные» и «Порошки абразивные». Ясно, что они выражают одно и то же понятие. Но одно понятие не может быть представлено в тезаурусе двумя различными терминами! Это значило бы, что при поиске документов на запрос, содержащий термин «Абразивы порошкообразные», поисковая система не выдала бы документы, содержащие в поисковом образе термин «Порошки абразивные», хотя они подлежат выдаче, так как соответствуют запросу.

Использование синонимичных терминов приводит к потерям информации. Чтобы предотвратить это, из двух (в данном случае) синонимов в качестве дескриптора выбирают один – термин «Абразивы порошкообразные», – а другой снабжают отсылкой к первому (пометкой): см. «Порошки абразивные». Такая пометка означает, что вместо одного термина при составлении поисковых образов документов или запросов следует использовать другой, являющийся дескриптором. Именно так ликвидируется в тезаурусах синонимия.

Если из нескольких синонимов один выбран в качестве дескриптора, то остальные (в нашем случае это термин «Порошки абразивные») при этом получают название ключевых слов. Наличие в тезаурусе ключевых слов с отсылками к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.

Тезаурус является необходимым лингвистическим пособием любой механизированной или автоматизированной информационно-поисковой системы, использующей ИПЯ дескрипторного типа.

Первые тезаурусы, удовлетворяющие специфическим задачам информационного поиска, были разработаны в начале 60-х годов нашего века.

В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узкотематические тезаурусы. Наиболее известны из информационно-поисковых тезаурусов следующие:

  • тезаурус АСТИА (Агентство службы технической информации США) – 1-е издание в декабре 1962 г.;
  • тезаурус технических и научных терминов, наиболее крупный из существующих тезаурусов (23364 слова, из которых 17810 слов выступают в качестве дескрипторов). Этот труд, вышедший в свет в декабре 1967 г., представляет собой совместное издание Документального центра Министерства обороны США и Объединенного совета инженеров;
  • тезаурус научно-технических терминов под общей редакцией Ю.И. Шемакина (М., Воениздат, 1972 г.). Этот тезаурус, включающий 19000 терминов, из которых 15000 являются дескрипторами, может служить примером отечественного многоотраслевого тезауруса.

К многоотраслевым тезаурусам можно отнести также тезаурусы международных информационных служб по атомной энергии. Тезаурус Евратома, изданный в 1966 и 1967 гг. и Тезаурус Международного агентства по атомной энергии в Вене («ИНИС»-Тезаурус), 6-е издание которого вышло в свет в 1974 г.

Примерами тезаурусов отраслевого масштаба могут служить: словарь дескрипторов по химии и химической промышленности, изданный НИИТЭХИМ в 1973 г. (1033 дескриптора, 5373 ключевых слова), тезаурус дескрипторов по образованию, используемый в автоматизированной системе Информационного центра в области народного образования США (1967 г.).

Даже этот небольшой перечень может дать представление о том, насколько велика роль информационно-поисковых тезаурусов в поиске информации. В настоящее время во всем мире ведется интенсивная работа по построению ИПТ различного назначения.

Для соединения «слов» тезаурусов в «фразы» применяются грамматические средства ИПЯ – правила составления поисковых образов с помощью дескрипторов ИПТ. Грамматики, применяемые в ИПЯ, бывают самыми различными. Одни регламентируют порядок дескрипторов в ПОДах и ПОЗах, другие – приписывают каждому дескриптору числа, характеризующие их значимость для поискового образа, третьи – указывают на роль каждого дескриптора при помощи специальных указателей и т.д. Применение грамматических средств в некоторых случаях позволяет более точно передавать содержание документов и тем самым улучшать поисковые характеры ИПС.

Подробное освещение классификационных и дескрипторных ИПЯ, информационно-поисковых тезаурусов и лингвистических (т.е. языковых) аспектов автоматизированных ИПС объясняется тем, что они оказывают решающее влияние на функционирование ИПС. Какой бы мощной и современной ЭВМ мы ни располагали, без правильно выбранного поискового языка вся система будет работать неэффективно.

Совершенствование ИПЯ во многой зависит от достижении в области теории семантической информации и направлений лингвистики. Поэтому появление автоматизированных ИПС послужило толчком к интенсивным исследованиям в области этих наук. Очень заманчиво, например, поручить вычислительной машине такую трудоемкую операцию, как реферирование документов. Одним из способов реализации этой идеи является выделение машиной в тексте таких предложений, которые содержат наиболее значимые для данной области знаний термины (а таковыми являются дескрипторы тезауруса этой области знаний, который хранится в памяти машины). Из этих предложений формируется реферат документа.

Другой, более сложный путь состоит в синтезе самих предложений после выделения в тексте наиболее значимых терминов. Все это требует от ЭВМ обширных «познаний» в области лингвистики. Решение все новых и новых проблем теоретической и прикладной лингвистики имеет конечной целью улучшение «взаимопонимания» между человеком и ЭВМ, а следовательно, и более полное использование возможностей вычислительной техники.

В последнее время в информатике прочно утвердился термин «лингвистическое обеспечение», который обобщает все те проблемы лингвистического характера, которые необходимо решить для обеспечения деятельности автоматизированных информационно-поисковых систем. Лингвистическое обеспечение – необходимый и очень важный элемент любой автоматизированной ИПС.

И проблемы технические

Автоматизированные ИПС (АИПС), реализованные на ЭВМ, появились на рубеже 60-х годов. Уже в 1961 г., по данным Центра по обработке научной информации… Роль технических средств в обработке научной информации настолько велика, что… Первый период (1950-е годы) связан с первоначальными исследованиями и опытно-конструкторскими разработками,…

Плюс аналитико-синтетическая обработка!

Информационный кризис не был бы принципиально преодолим вообще, если бы научная информация не обладала важнейшим свойством – кумулятивностью. Так,… Извлечь из документа его основной смысл, как это делается при составлении… Наряду с автоматизацией процессов обработки документальной информации большое внимание уделяется и АСО: растет…

Что Вы знаете о ГСНТИ?

Под этим понятием подразумевается разновидность научного труда, заключающаяся в сборе, аналитика-синтетической обработке, хранении и поиске… В давние времена ученый сам ставил эксперименты, обобщал их и создавал теории.… Ученые, занимающиеся научно-информационной деятельностью, – это не пассивные поставщики информации для теоретиков и…

– Конец работы –

Используемые теги: Популярная, информатика0.053

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Популярная информатика

Что будем делать с полученным материалом:

Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Еще рефераты, курсовые, дипломные работы на эту тему:

Лекции по курсу Информатика Лекция 1. Основные понятия и методы теории информатики и кодирования. Информатика как научная дисциплина. Понятие информации и информационных процессов
Лекция Основные понятия и методы теории информатики и кодирования... Информатика как научная дисциплина... Понятие информации и информационных процессов...

ЛЕКЦИЯ 1. 3 ПОНЯТИЕ ПРАВОВОЙ ИНФОРМАТИКИ И ЕЕ ПРЕДМЕТ. Правовая информатика как наука и учебная дисциплина. О месте правовой информатики в системе наук и правоведении. 14
ВВЕДЕНИЕ... ЛЕКЦИЯ... ПОНЯТИЕ ПРАВОВОЙ ИНФОРМАТИКИ И ЕЕ ПРЕДМЕТ Правовая информатика как наука и учебная дисциплина...

Лекции 1.ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИЯ ИНФОРМАТИКИ. 2 ЛЕКЦИИ 2. МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ. СИСТЕМЫ СЧИСЛЕНИЯ. 12 ЛЕКЦИЯ 3. АППАРАТНОЕ ОБЕСПЕЧЕНИЕ ЭВМ. 20 ЛЕКЦИЯ 4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ КОМПЬЮТЕРОВ.. 49 Широко распространён также англоязычный вар
gl ОГЛАВЛЕНИЕ... Лекции ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИЯ ИНФОРМАТИКИ... ЛЕКЦИИ МАТЕМАТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ СИСТЕМЫ СЧИСЛЕНИЯ...

Предмет и основные понятия информатики Предмет информатики как науки составляют: -аппаратное обеспечение средств вычислительной техники
Информатика это комплексная техническая наука которая систематизирует... Термин информатика происходит от французского слова Informatique и образован из двух слов информация и автоматика...

Объект и предмет информатики. Структура Информатики
Информатика делится на ряд разделов... Теоретическая информатика... Основная статья Теоретическая информатика...

ЛЕКЦИИ ПО КУРСУ ИНФОРМАТИКА Лекция 1. Введение. История информатики. Измерение
Лекция... Введение История информатики Измерение...

Популярная информатика. Внимание, информация!
На сайте allrefs.net читайте: "Популярная информатика. Внимание, информация!"

КУРС ЛЕКЦИЙ по дисциплине Информатика Лекция 1 1. Введение в информатику
Федеральное агентство по образованию... Государственное образовательное учреждение... высшего профессионального образования...

Рассматривается история развития информатики и излагается предмет информатики
Ключевые слова advanced brainware CD RW DARPA edu gov hardware Internet MAX net org science true Windows автомат база данных вектора... Хотя информатика и считается достаточно молодой наукой по отношению ко многим... При рассмотрении вопроса об истории информатики будем исходить из первых признаков и событий информационного обмена...

Конспект лекций по дисциплине Информатика Введение в информатику
Введение в информатику Определение инфоpматики В году... Формы существования информации... Информация может существовать в самых разнообразных формах...

0.038
Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • По категориям
  • По работам