Измерение информации

Различают меры информации синтаксического, семантического и прагматического уровней. Рассмотрим меру информации синтаксического уровня. Мера информации синтаксического уровня не связана с содержательной стороной информации, а оперирует только с обезличенной информацией, не выражающей смыслового отношения к объекту. Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации - (объемный подход) и количество информации – (энтропийный подход).

Объем информации (объемный подход). Сообщение представляет собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает объем информации, представленной последовательностью символов данного алфавита. Если теперь объем информации, содержащейся в сообщении из одного символа, принять за единицу объема, то объем информации будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то единица представления информации будет меняться.

Так в десятичной системе счисления единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем дит. Например, число 2010 имеет объем дит.

В двоичной системе счисления единицей измерения информации является бит (bit – binary digit – двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем бит. Например, код 11001011 имеет объем бит. Также имеются производные единицы измерения информации:

1 байт = 8 бит

1 Кбайт (Килобайт) = 1024 (210) байт;

1 Мбайт (Мегабайт) = 1024 (210) Кбайт;

1 Гбайт (Гигабайт) = 1024 (210) Мбайт;

1 Тбайт (Терабайт) = 1024 (210) Гбайт;

1 Пбайт (Петабайт) = 1024 (210) Тбайт.

Количество информации (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и др.) неопределенности. При этом в качестве меры неопределенности вводится энтропия, H, а количество информации I равно:

 

начальная энтропия о состоянии исследуемой системы.

конченая энтропия о состоянии исследуемой системы.

Когда в ходе испытания имевшаяся неопределенность снята (получен конечный результат , количество полученной информации совпадает с начальной энтропией, т.е.

Рассмотрим в качестве исследуемой системы систему, имеющую конечное множество возможных состояний. Система может в каждый момент времени случайным образом принять одно из возможных состояний. Если система приняла некоторое состояние, говорят, что произошло событие. Вероятность – это числовая характеристика степени возможности наступления того или иного события. Вероятность достоверного события (которое обязательно произойдет) равна 1, невозможного события (которое не произойдет никогда) равна 0. Вероятность случайного события (которое может произойти или не произойти) находится в интервале [0, 1].

Например, подбрасывается монета. При этом возможны два события: А – при подбрасывании монеты выпал «орел» или В – при подбрасывании монеты выпала «решка». Эти события равновероятны. Вероятность выпадения «орла» при бросании монеты равна ½, вероятность выпадения «решки» так же равна ½.

Для снятия неопределенности в ситуации из двух равновероятных событий необходим один опыт и соответственно один бит информации. При неопределенности, состоящей из четырех равновероятных событий, достаточно двух бит информации, чтобы угадать искомый факт. При неопределенности, состоящей из восьми равновероятных событий, достаточно трех бит информации и т.д. Таким образом, если сообщение указывает на одни из n равновероятных вариантов, то оно несет количество информации, равное . Эта формула была предложена американским инженером Р.Хартли в 1928 г.

Формула Хартли: .

Рассмотрим пример. Загадано число в диапазоне от 1 до 8, т.е. имеется 8 равновероятных событий (загадано число 1, загадано число 2 и т.д.). Нужно отгадать, какое число загадано. Хартли рассматривал процесс отгадывания следующим образом: необходимо задать вопрос, предполагающий ответ в форме «Да/Нет» (т.е. в двоичной форме), и уменьшающий неопределенность ситуации в два раза. Допустим, загадано число 5. Пытаясь выяснить это, задаются вопросы:

- Число находится в интервале от 1 до 4? Нет

- Число находится в интервале от 7 до 8? Нет

- Это число 6? Нет

Следовательно, загадано число 5.

В результате отгадывания было задано 3 вопроса, каждый из которых привел к получению 1 единицы информации, т.е. было получено количество информации равное 3. Это же количество информации мы получим и по формуле Хартли: , т.е. сообщение о верно угаданном числе содержит количество информации равное 3.

Определим теперь, являются ли равновероятными события «первой вышла из дверей здания женщина» или «первым вышел из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Например, если зданием является военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины, а если речь идет о станции метро, то вероятность может быть одинаковой. Для задач такого рода американский ученый К.Шеннон предложил в 1948 г. другую формулу, учитывающую возможную неодинаковую вероятность событий.

Формула Шеннона:

 

Где - вероятность того, что именно i-е состояние выбрано из набора n состояний.

Если вероятности равны, то каждая из них равна 1/n.

Чем выше вероятность события, тем меньшее количество информации возникает после его осуществления, и наоборот.

Рассмотрим пример. В классе четыре ученика: Антон, Владимир, Николай, Петр. Учитель обязательно спросит одного из них, при этом вероятность того, что спросят Антона, равна 0.5, вероятность того, что спросят Владимира – 0.2, вероятность того, что спросят Николая – 0.1, вероятность того, что спросят Петра – 0.2.

Учитель спросил ученика. Каково количество информации в этом сообщении? Рассчитаем его по формуле Шеннона:

 

Мера информации семантического уровня определяется способностью пользователя принимать поступившее сообщение.

Мера информации прагматического уровня определяется полезностью информации (ценностью) для достижения пользователем поставленной цели.