ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ К ИЗМЕРЕНИЮ КОЛИЧЕСТВА ИНФОРМАЦИИ.

Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а в работах по созданию ЭВМ был развит объемный подход.


ПРИМЕР ВЕРОЯТНОСТНОГО ПОДХОДА.

Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли : H=log2 34≈ 5 (бит). Однако, в словах русского языка, равно как и в словах других языков, различные буквы встречаются неодинаково часто. Поэтому для подсчета энтропии H надо использовать формулу Шеннона. При этом: Н≈ 4.72 (бит). Полученное значение энтропии H, меньше вычисленного по формуле Хартли, т. к. при не равновероятных состояниях свобода выбора источника ограничена, что должно привести к уменьшению неопределенности (и количества информации). Так, если источник имеет два состояния с вероятностями 0,99 и 0,01, то неопределенность здесь значительно меньше, чем при равновероятных состояниях с вероятностями 0,5 и 0,5. Мера неопределенности зависит от функции распределения случайной величины.

Величина энтропии H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак при равновероятном появлении знаков.

Частотность букв русского языка (вероятности появления в тексте pi, полученные на основе анализа очень больших по объему текстов) представлена в следующей таблице.

n Симв. pi n Симв. pi n Симв. pi
Пробл 0,175 К 0,028 Г 0,012
О 0,090 М 0,026 Ч 0,012
Е 0,072 Д 0,025 Й 0,010
Ё 0,072 П 0,023 X 0.009
А 0,062 У 0,021 Ж 0.007
И 0,062 Я 0,018 Ю 0,006
Т 0,053 Ы 0,016 Ш 0.006
Н 0,053 0,016 Ц 0.004
С 0,045 Ь 0,014 Щ 0.003
Р 0,040 Ъ 0,014 Э 0,003
В 0,038 Б 0,014 Ф 0.002
Л 0,035            

Аналогичные подсчеты H можно провести и для других языков, использующих латинский алфавит, - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Шеннона для этих языков получим:

H= Iog2 27 = 4,76 бит.

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. В порядке убывания вероятностей получим:

Английский язык: «пробел», Е,Т, А, О, N, R, …

Немецкий язык: «пробел», Е, N, I, S,T, R, …

Французский язык: «пробел», Е, S, A, N, I, T, …

ПРИМЕР ОБЪЕМНОГО ПОДХОДА.

Разработчики компьютеров отдают предпочтение двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния. Примеры: физический элемент, имеющий два различных состояния; намагниченность в двух противоположных направлениях; прибор, пропускающий или не пропускающий электрический ток; конденсатор, заряженный или незаряженный. Наименьшей возможной единицей информации в компьютере является бит (binary digit -двоичная цифра). Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных цифр (битов). При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). Для удобства введены и более крупные, чем бит, единицы количества информации.

1 байт = 8 бит;

1 килобайт (Кбайт) = 210 бит = 1024 байт;

1 мегабайт (Мбайт) = 1024 килобайт;

1 гигабайт (Гбайт) = 1024 мегабайт:

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измерение количества информации в обоих смыслах, то они не обязательно совпадают, при этом вероятностное количество информации не может быть больше объемного.