Избыточность

 

Пусть источник сообщения передает предложение реального языка. Оказывается, каждый следующий символ не полностью случаен, и вероятность его появления не полностью предопределена средней частотой символа во всех сообщениях языка. То, какой символ последует дальше, зависит от символов, уже переданных. Например, в русском языке после символа «Ъ» не может идти символ согласного звука. После двух подряд гласных «Е» третий гласный «Е» следует крайне редко (например, в слове «длинношеее»). Таким образом, каждый следующий символ в некоторой степени предопределен, поэтому можно говорить об условной энтропии символа. Источник может порождать сообщения строго определенного типа — например, формальную деловую переписку; в таком случае предопределенность следующего символа может быть намного выше, чем в среднем в языке. Тогда энтропия этого источника будет отличаться от максимальной: она будет меньше.

Избыточность обычного английского текста составляет примерно 50%. Это значит, что когда мы пишем по-английски, то половина знаков предопределяется структурой языка и лишь половина выбирается свободно. То есть избыточность — это мера предсказуемости сообщения.