Энтропия

Разные сообщения несут в себе разные объемы информации. Попробуем сравнить следующие два вопроса:

1. На каком из пяти курсов университета учится студент?

2. Как упадет монета при подбрасывании: вверх «гербом» или «цифрой»?

В первом случае возможны пять равновероятных ответов, во втором – два. Следовательно, вероятность какого-то ответа во втором случае больше, чем в первом (1/2 > 1/5), в то время как неопределенность, снимаемая ответами, больше в первом случае. Любой из возможных ответов на первый вопрос снимает большую неопределенность, чем любой ответ на второй вопрос. Поэтому ответ на первый вопрос несет больше информации.

Следовательно, чем меньше вероятность какого-либо события, тем большую неопределенность снимает сообщение о его появлении и, следовательно, тем большую информацию оно несет.

Мерой количества информации Шеннон предложил считать функцию, названную им энтропией.

Пусть сообщение — осмысленное предложение на русском языке. Шеннон заметил, что при передаче различных букв мы передаем разное количество информации. Если мы передаем часто встречающиеся буквы, то информацияменьше; при передаче редких букв — больше (Рисунок 2.5). Это видно при кодировании букв алфавита азбукой Морзе (Рисунок 2.6). Наиболее частые буквы передаются коротко, а для редких используют более длинные цепочки. Так, буква «Е» кодируется одной точкой «.», а редкая «Ш» — четырьмя тире «– – – –» (это самая длинная последовательность на букву в азбуке Морзе). Следует учитывать, что изначально азбука Морзе разрабатывалась для английского языка с несколько иным распределением частот букв.

Буква	Частота встречи, %
о	10,92	****************************************
а	8,89	*********************************
е	8,10	******************************
н	6,43	************************
и	6,39	***********************
л	5,87	**********************
т	5,76	*********************
с	5,11	*******************
к	4,57	*****************
р	4,16	***************
в	3,65	*************
м	3,08	***********
д	3,06	***********
у	3,03	***********
п	2,71	**********
ь	2,32	********
ы	2,12	********
з	2,00	*******
я	1,88	*******
г	1,69	******
ч	1,67	******
б	1,55	******
й	1,19	****
ш	1,01	****
ж	0,92	***
х	0,84	***
ю	0,33	*
ц	0,29	*
щ	0,26	*
э	0,14	*
ф	0,06
ъ	0,03

Рисунок 2.5 – Гистограмма частот букв русского языка.

А, А	×-	К, K	-×-	Ф, F	××-×
Б, B	×---	Л, L	×-××	Х, H	××××
В, W	×--	М, M	--	Ц, C	-×-×
Г, G	--×	Н, N	-×	Ч	---×
Д, D	-××	О, O	---	Ш	----
Е, E	×	П, P	×--×	Щ, Q	--×-
Ж, V	×××-	Р, R	×-×	Ь, X	-××-
З, Z	--××	С, S	…	Ы, Y	-×--
И, I	××	Т, T	-	Ъ	×--×-×
Й, J	×---	У, U	××-	Э	×××-×××
Ю	××--	Я	×-×-		×----
	××---		×××--		××××-
	×××××		-××××		--×××
	---××		----×		-----
.	×-×-×-	,	-×--×-	"	×----×
-	-××××-	/	-××-×	?	××--××
:	---×××

Рисунок 2.6 – Кодировка азбуки Морзе.

Количество информации на букву связано с частотой употреблений этой буквы во всех сообщениях, формируемых на языке. Чем более редкую букву мы передаем, тем больше в ней информации.

Энтропия— мера непредсказуемости. Это понятие Шеннон взял из статистической термодинамики. Пусть вероятность i-го символа алфавита, состоящего из n символов (мера частоты, с которой встречается символ во всех сообщениях языка), равна p_i. Тогда информацияодного символа:

(здесь log₂ — логарифм по основанию 2). Шеннон пишет: «Величина H играет центральную роль в теории информации в качестве меры количества информации, возможности выбора и неопределенности». Количество информации, передаваемое в сообщении, тесно связано с мерой неопределенности, или непредсказуемости передаваемых символов.

Знак "минус" в формуле Шеннона не означает, что количество информации в сообщении – отрицательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, (log p_i) – величина отрицательная, то произведение вероятности на логарифм числа будет положительным.