КОДИРОВАНИЕ ДВОИЧНЫХ СИГНАЛОВ.

Любой сигнал переносится либо энергией, либо веществом. Это либо акустическая волна (звук), либо электромагнитное излучение (свет, радиоволна), либо лист бумаги (написанный текст), либо каменная скрижаль с выбитыми на ней магическими знаками.

Ни переданная энергия, ни посланное вещество сами по себе никакого значения не имеют, они служат лишь носителями информации. По мере удаления от передатчика поток энергии становится все слабее и слабее. Это тоже не имеет значения до тех пор, пока превышение сигнала над шумом достаточно для приема информации. При радиовещании одну и ту же информацию получает и подмосковный радиослушатель, и уральский радиослушатель из Нижнего Тагила. Но поток энергии радиоволн в Нижнем Тагиле в тысячи раз меньше, чем под Москвой. Истрепанная книжка, если в ней нет вырванных страниц, несет ровно столько же информации, сколько такая же новая. Каменная скрижаль весом в три тонны несет столько же информации, сколько ее хороший фотоснимок в археологическом журнале. Следовательно, мощность сигнала, так же как и вес носителя, никак не могут служить оценкой количества информации, переносимой сигналом. Как же оценить это количество?

Во время второй мировой войны подобные вопросы заинтересовали шифровальщика при одном из штабов американских войск в Европе К. Шеннона. После войны К. Шеннон защитил докторскую диссертацию, став основоположником новой науки - теории информации. В 1948-1949 годах вышли в свет его статьи «Математическая теория связи» и «Связь в присутствии шума» (ПРИЛОЖЕНИЕ 3).

Любое сообщение можно свести к передаче чисел. Влюбленный, находясь в разлуке с объектом своей любви, посылает телеграмму: «Любишь?». В ответ приходит лаконичная телеграмма: «Да!». Какое количество информации несет ответная телеграмма? Ответов может быть два - либо «ДА», либо «НЕТ». Их можно обозначить символами двоичного кода «1» и «0». Таким образом, ответную телеграмму можно было бы закодировать единственным символом «1». Выбор одного из двух сообщений («Да» или «Нет», «1» или «О») принимают за единицу информации - бит. Количество информации, содержащейся в ответной телеграмме равно одному биту. Ответ «Да» или «Нет» несет 1 6ит информации только при равновероятных ответах (формула Хартли):

I=H=log2N=log22=1.

Если влюбленный уверен в положительном ответе, то ответ «Да» не даст ему почти никакой новой информации. То же самое относится и к безнадежно влюбленному, уже привыкшему получать отказы. Ответ «Нет» также принесет ему очень мало информации. Но внезапный отказ уверенному влюбленному (неожиданное огорчение) или ответ «Да» безнадежно влюбленному (нечаянная радость) несут сравнительно много информации, настолько много, что радикально изменяется все дальнейшее поведение влюбленного, а может быть, и его судьба!

Таким образом, если ответы не равновероятны, количество полученной информации зависит от ее вероятности. Общая формула для подсчета количества информации, содержащейся в одном сообщении, имеет вид:

,

- вероятность появления данного (дискретного) сообщения.

Для абсолютно достоверного события, которое обязательно произойдет, вероятность его появления равна 1:

Количество информации в сообщении о таком событии равно 0:

Чем невероятнее событие, тем большую информацию о нем несет сообщение.

Ценность, практическая значимость этой информации для получателя, т.е. качественные характеристики информации, при определении количества информации не рассматриваются.

Почему в приведенной формуле использована логарифмическая функция? Информация, содержащаяся в двух независимых сообщениях а1 и а2, должна быть равна сумме информации, содержащихся в каждом из сообщений:

I(а1,,а2) =I(a1) +I(a2).

Вероятность того, что источник пошлет оба эти сообщения, одно за другим, равна произведению вероятностей появления каждого из сообщений:

Р(а12)= Р(а1)Р(а2).

При умножении двух величин их логарифмы складываются. Поэтому и количество информации должно выражаться логарифмической функцией. Ввиду широкого использования двоичных сигналов в вычислительной технике и связи, чаще всего используют логарифм по основанию два. При этом количество информации оказывается выраженным в битах. Если в примере с влюбленными вероятность ответов «Да» и «Нет» одинакова и, следовательно, составляет 0,5, то количество информации в одном ответе составляет 1 бит.

Что произойдет если выбор надо осуществить не из двух сочетаний, а из множества? У древних индейцев Центральной Америки существовало узелковое письмо. Писали, завязывая узелки на веревке. Совершенно очевидно, что при таком способе письма можно использовать двоичный код: есть узелок в данном месте - единица, нет узелка - нуль. Если на каждом сантиметре длины веревки разместить по узелку, то метровая веревка будет нести 100 бит информации.

Еще один пример одного выбора из нескольких возможных. В 1943 году, англо-американские войска готовились к высадке на итальянский остров Сицилию, занятый фашистскими войсками. В это время в одной из тюрем США сидел очень влиятельный гангстер Лучано, выходец из Сицилии. Американская разведка вступила с ним в сговор, пообещав досрочное освобождение. В результате с самолета над Сицилией был сброшен вымпел - шелковый платок с вышитой на нем буквой L. Сицилийские мафиози, в то время не ладившие с немецко-фашистскими оккупантами, поняли, что Лучано за союзников и начали партизанскую войну против немцев.

Сейчас нас интересует не значимость для истории сообщения на вышитом платке, а лишь количество переданной информации. В английском алфавите 26 букв, добавим еще служебные знаки препинания-всего 32 знака. Значит, осуществлялся выбор одного из 32 знаков. Пример характерен тем, что при передаче любых телеграмм, на любом языке в приемном устройстве происходит выбор одной буквы из алфавита, который чаще всего содержит 32 знака.

Если вероятность появления каждого из знаков одинакова и, следовательно, составляет 1/32, то при передаче одного знака из 32 необходимо 5 двоичных разрядов:

I = H = log2N = log232 = 5.

В рассматриваемом случае вероятность появления каждого знака неодинакова, поэтому для подсчета энтропии H надо использовать формулу Шеннона, что дает:

Н≈ 4.72 (бит)

Таким образом, для хранения и передачи информации, содержащий английский алфавит, достаточно 5 бит.

Перенумеруем все буквы алфавита по порядку. Буква L стоит на двенадцатом месте, и ее порядковый номер будет 12. Теперь для выбора этой буквы достаточно передать ее порядковый номер. Число 12, выраженное в двоичном коде, выглядит как 01100. Итак, сообщение гангстера Лучано содержало 5 бит информации.

В народном хозяйстве необходимо передавать значительно больше информации. Не вызовет удивления, например, такая телеграмма, переданная работником снабжения: «В феврале на Чукотку поступило 10000 DVD дисков». Информация здесь такова: во-первых, февраль. Надо думать, поставки товаров подобного рода производятся ежемесячно, поэтому февраль надо обозначить цифрой 2. Отсюда определяем число двоичных разрядов, необходимых для передачи номера месяца: 4 (24 = 16, имеется некоторая избыточность информации). Далее необходимо ввести код Чукотки. Пусть соответствующая организация поставляет товары в 120 краев и областей, причем Чукотке ввиду ее удаленности присвоен последний номер. Тогда для передачи кода Чукотки (120) потребуется 7 двоичных разрядов (27 = 128). После кода области надо указать код товара. Если всего поставляется, например, 512 наименований товаров, то для обозначения DVD дисков, скажем № 384, потребуется 9 разрядов (29 = 512). И наконец, число DVD дисков 10000 в двоичном коде займет 14 разрядов. Получаем следующую таблицу:

Вид информации Месяц поставки Место поставки Код товара Число единиц товара
Кол-во разряд.
Слова телегр. Февраль Чукотка DVD диски
Десятичн. код
Двоичн. код

Полное сообщение требует 4+7+9+14=34 двоичных разряда. Спереди обычно добавляют несколько разрядов служебной информации - адрес, знак начала сообщения и т. д. Подобные таблицы называются шифрами и ключами к шифрам. Последовательность кодов и число разрядов каждого кода, указанные в таблице, должны быть и у отправителя, и у получателя сообщения, чтобы они имели возможность кодировать и декодировать телеграмму. На линии связи эти процессы автоматизированы, соответствующие устройства называют кодерами и декодерами.