В статистической теории информации вводится более общая мера количества информации, в соответствии с которой рассматривается не само событие, а информация о нем. Этот вопрос глубоко проработан К. Шенноном в работе «Избранные труды по теории информации». Если появляется сообщение о часто встречающемся событии, вероятность появления которого близка к единице, то такое сообщение для получателя малоинформативное. Столь же мало информативны сообщения о событиях, вероятность появления которых близка к нулю.
События можно рассматривать как возможные исходы некоторого опыта, причем все исходы этого опыта составляют ансамбль, или полную группу событий. К. Шеннон ввел понятие неопределенности ситуации, возникающей в процессе опыта, назвав ее энтропией. Энтропия ансамбля есть количественная мера его неопределенности и, следовательно, информативности, количественно выражаемая как средняя функция множества вероятностей каждого из возможных исходов опыта.
Пусть имеется N возможных исходов опыта, из них k разных типов, а i-й исход повторяется ni раз и вносит информацию, количество которой оценивается как Ii. Тогда средняя информация, доставляемая одним опытом,
Iср = (n1 *I1 + n2 *I2 + . . . + ni *Ii )/N . (1.9)
Но количество информации в каждом исходе связано с его вероятностью рi , и выражается в двоичных единицах (битах) как
Ii = log2 (N/ni) = log2 (1/pi) = -log2 pi
Тогда
Iср =[n1 (-log2 p1)+. . .+nk (-log2 pk)]/N. (1.10)
Выражение (1.10) можно записать также в виде
Iср =n1/N (-log2 p1)+. . .+nk/N (-log2 pk). (1.11)
Но отношения n/N представляют собой частоты повторения исходов, а, следовательно, при достаточно большом значении N могут быть заменены их вероятностями: ni/N=pi , поэтому средняя информация в битах
Iср = p1 (-log2 p1)+. . .+pk (-log2 pk),
или
Iср =∑ pi (-log2 pi) = H (1.12)
Полученную величину H называют энтропией. Энтропия обладает следующими свойствами:
1. Энтропия всегда неотрицательна, так как значения вероятностей выражаются величинами, не превосходящими единицу, а их логарифмы — отрицательными числами или нулем, так что члены суммы (1.12) — неотрицательны.
2. Энтропия равна нулю в том крайнем случае, когда одно из рi , равно единице, а все остальные — нулю. Это тот случай, когда об опыте или величине все известно заранее и результат не дает новую информацию.
3. Энтропия имеет наибольшее значение, когда все вероятности равны между собой:
р1 =.р2=. . . =pi =1/k. При этом
H=- log2(1/k)=log2 k.
4. Энтропия объекта АВ, состояния которого образуются совместной реализацией состояний А и В, равна сумме энтропии исходных объектов А и В, т. е. Н(АВ) = Н(А) + Н(В).
Если все события равновероятны и статистически независимы, то оценки количества информации, по Хартли и Шеннону, совпадают. Это свидетельствует о полном использовании информационной емкости системы. В случае неравных вероятностей количество информации, по Шеннону, меньше информационной емкости системы. Максимальное значение энтропии достигается при р=0,5, когда два состояния равновероятны. При вероятностях р = 0 или р = 1, что соответствует полной невозможности или полной достоверности события, энтропия равна нулю.
Количество информации только тогда равно энтропии, когда неопределенность ситуации снимается полностью. В общем случае нужно считать, что количество информации есть уменьшение энтропии вследствие опыта или какого-либо другого акта познания. Если неопределенность снимается полностью, то информация равна энтропии –
I = Н .
В случае неполного разрешения имеет место частичная информация, являющаяся разностью между начальной и конечной энтропией: I = Н1 -H2.
Наибольшее количество информации получается тогда, когда полностью снимается неопределенность, причем эта неопределенность была наибольшей — вероятности всех событий были одинаковы. Это соответствует максимально возможному количеству информации , оцениваемому мерой Хартли:
I1 = log2 N = log2 (1/p) = - log2 p,
где N— число событий; р — вероятность их реализации в условиях равной вероятности событий.
Таким образом, I1' = Нmax.
Абсолютная избыточность информации Dавс представляет собой разность между максимально возможным количеством информации и энтропией:
Dавс = I1' - Н , или Dавс = Нmax -Н . (1.13)
Пользуются также понятием относительной избыточности
D = (Нmax -Н )/Hmax. (1.14)
2.1. На листе книги MS Excel отчета по лабораторной работе составьте следующую таблицу
Таблица 1
Результаты работы
№ п/п | символ | Код символа | Число вхождений символа в текст | рi | Ii |
… | … | ||||
я | |||||
Всего символов в тексте | |||||
Энтропия источника | |||||
Неопределенность при использовании стандартной кодовой таблицы ASCII | разрядность кода ASCII | Абсолютная избыточность при использовании стандартной кодовой таблицы | Относительная избыточность при использовании стандартной кодовой таблицы | ||
Неопределенность по Хартли | Необходимая разрядность кода | Абсолютная избыточность | Относительная избыточность |
Для составления перечня символов кодовой таблицы рекомендуется воспользоваться функцией СИМВОЛ(). Исключите из таблицы строки, соответствующие управляющим символам и прописным символам латинского алфавита и кириллицы.
2.2. Для заданного преподавателем текста заполните табл.1, предварительно заменив все прописные символы строчными. Управляющие символы не учитываются. Для определения числа вхождений каждого символа в текст можно воспользоваться опцией «Найти» MS WORD 2002. Для ранних версий WORD лучше воспользоваться опцией «Замена», последовательно заменяя символы текста любым символом, не встречающимся в тексте, например, «$». Если символ ни разу не обнаружен в тексте, соответствующая строка таблицы удаляется.
Примечание: в данной работе для упрощения расчетов принимается упрощенная структура текста без различия регистра и без управляющих символов.
2.3. Вычислите неопределенность при использовании стандартной кодовой таблицы, неопределенность по Хартли и энтропию источника по полученным данным. Определите абсолютную и относительную избыточности.
2.4. Оформите отчет по работе.
1.1. Таблицы с результатами.
1.2. Выводы по работе.
Литература:
1. Савельев А.Я. Основы информатики: Учеб. Для вузов.- М.: Изд-во МГТУ им. Н.Э.Баумана, 2001.- 328 с.
2. Темников Ф.Е. и др. Теоретические основы информационной техники.- М.: Энергия, 1979.- 512 с.