Количество информации

Как отмечалось в 1 главе, распространены подходы к определению понятия "количество информации", основанные на том, что явление информации представляет собой совокупность объектов, которые могут обладать некоторым набором состояний и мы получаем некоторое сообщение о состоянии этих объектов. Пусть у нас имеются некоторые знания об объектах до появления и после появления сообщения. Эти знания можно количественно описать (говорят информацию, «содержащуюся» в сообщении можно количественно описать-измерить). Для этого количественно фиксируется уменьшение неопределённости наших знаний об объекте при получении сообщения. Более конкретно - используют математические понятия вероятности состояния объекта (до получения сообщения и после получения сообщения) и понятие логарифма этих вероятностей.

При этом «получение информации» рассматривается как получение одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, то есть расценивается как вероятностное событие. Тогда количество информации Q, содержащееся в выбранном сообщении, определяется как двоичный логарифм N (формула Хартли)

Q = log2N

Содержательный подход связывает количество информации с содержанием сообщения. Так, при броске монеты на ровную поверхность она ложится стороной "орел" или "решка". До броска монеты неопределенность количественно выражалась в двух равновероятных событиях, после броска имеет место одно событие – "орел" или "решка", следовательно неопределенность знания уменьшилась в два раза.

Для двух равновероятных сообщений ("орел" и "решка") по формуле Хартли получим

Q = log22 = 1

В качестве единицы информации принят один бит (англ. bit — binary digit — двоичная цифра). Итак, бит в теории информации – это такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза.

Допустим, на игральном кубике на каждой грани нанесены от 1 до 6 точек, причем выигрышными являются значения граней от 4 до 6. Вероятность того, что одна из граней будет верхней после броска равна 1/6. Обозначая вероятные события как "проигрыш" и "выигрыш", получим вероятность проигрыша, равную 1/6 + 1/6 + 1/6 = 1/2 и такую же вероятность выигрыша. То есть, как и при броске монеты, каждый бросок кубика в данной игре будет содержать сообщение с количеством информации в один бит.

Вероятностный подход позволяет оценить количество получаемой информации для событий, которые происходят с разной вероятностью. Рассмотрим пример, когда вероятности событий отличаются. Пусть в урне находятся 4 белых и 12 черных шаров. Вероятность вытащить наудачу белый шар равна 4/(4+12) = 1/4, а черный 12/(4+12) = 3/4 .

Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем Q выражается формулой:

Q = -log2p

Так, при извлечении белого шара мы получаем количество информации Q = -log2(1/4) = 2 бит, а при извлечении черного шара мы получаем количество информации Q = -log2(3/4) = 0,3 бит.

Напомним, что алфавитный подход (синтаксический подход) не связывает количество информации с содержанием (смыслом) сообщения.

Этот подход используется при последовательных операциях передачи, сохранения, чтения текста, в котором все множество используемых в языке типов символов традиционно называют алфавитом.

Исходным значением для количественной оценки передаваемой информации является полное число символов алфавита, которое принято называть мощностью (объемом) алфавита.

Допустим, алфавит текста включает прописные и строчные символы кириллицы, цифры, знаки препинания, символы арифметических операций и прочие вспомогательные символы, вся же мощность алфавита пусть будет равна 128.

Предположим также, что каждый очередной символ при последовательных операциях передачи, сохранения или чтения текста с одинаковой вероятностью может быть любым символом алфавита. (В действительности это не совсем так, но для упрощения примем такое предположение.)

В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет Q бит информации; число Q можно определить из уравнения:

Q = log2N

Для N = 128 получаем: Q= 7 бит.

Затем для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на Q.

В вычислительной технике и теории цифровой связи битом называют значение двоичного разряда памяти компьютера, необходимого для хранения одного из двух знаков « и «, используемых для внутримашинного представления данных и команд.

Пример 1. Если мы бросим монету на ровную поверхность, то с равной вероятностью произойдет одно из двух возможных событий – "орел" или "решка". Неопределенность, существовавшая до броска ("орел" или "решка") уменьшается в два раза. Поскольку количество информации, которое мы получаем после броска, равно 1 бит, то для сохранения результата броска понадобится один двоичный разряд, куда будет занесена 1, если результат броска "орел" или 0, если результат броска "решка" (либо наоборот 0 для "орел" и 1 для "решка").

Пример 2. Правильная четырехгранная пирамида имеет грани красного, желтого, зеленого и синего цвета. Если бросить такую пирамиду на ровную поверхность, то произойдет одно из 4-х возможных событий – пирамида ляжет на одну из цветных граней. Какое количество информации будет получено после броска пирамиды?

Для четырех равновероятных сообщений по формуле Хартли получим

Q = log24 = 2 бит

Таким образом, для сохранения результата броска понадобится два двоичных разряда (2 бита), куда будет занесены:

00 – если результат броска "красная" грань;

01 – если результат броска "желтая" грань;

10 – если результат броска "зеленая" грань;

11 – если результат броска "синяя" грань;

Двоичное число, соответствующее событию (сообщению), называют кодом этого события. Коды цветов назначены произвольно, так как это не имеет особого значения.

Пример 3. Допустим, количество различных символов, вводимых с клавиатуры в компьютер, равно 256. Какое количество информации передается в компьютер при нажатии одной из клавиш (комбинаций клавиш)?

Таблица 4

ASCII-коды некоторых символов для кодовой таблицы CP866

ASCII – код двоичный ASCII – код десятичный Символ
А
Б
В
Г
... ... ...
э
ю
я
... ... ...

 

Для 256 равновероятных сообщений по формуле Хартли получим Q = log2256 = 8 бит

Таким образом, нажатие клавиши (комбинаций клавиш) клавиатуры представляет собой передачу информации в компьютер размером 8 бит. Очевидно, что двоичный код каждого символа клавиатуры в данном случае является восьмиразрядным. Такой код используется в текстовом режиме (т.н. ASCII-режим). В табл. 4 даны ASCII-коды некоторых символов.