Частотные характеристики.

Наиболее важная характеристика – избыточность открытого текста (подробно рассматривается в разделе надежности шифров).

Более простые:

· повторяемость букв, пар букв (биграмм), m-грамм;

· сочетаемость букв друг с другом (гласные-согласные и пр).

Такие характеристики устанавливаются на основе эмпирического анализа текстов достаточно большой длины.

Эксперимент по оценке вероятности появления в тексте фиксированных m-грамм (для небольших m).

Подсчет чисел вхождений каждой из nm возможных биграмм в достаточно длинных открытых текстах T = t1t2tl, составленных из букв алфавита {a1, a2,…,an}. При этом просматриваются подряд идущие m-граммы текста:

t1t2tm, t2t3tm+1, … , t1- m+1tl-m+2tl.

Если - число появлений m-граммы в тексте T, а L – общее число подсчитанных m-грамм, то при достаточно больших L:

 

При анализе сочетаемости букв друг с другом используют понятие условной вероятности (зависимость появления буквы в тексте от предыдущих букв).

Для условных вероятностей выполняются неравенства:

 

А. А. Марковым отмечена устойчивая закономерность чередования гласных и согласных. Зависимость появления букв текста вслед за несколькими предыдущими ощутима на глубину в 30 знаков, после чего практически отсутствует.

Вероятностная модель m-го приближения.

Пусть P(m)(A) – массив, состоящий из приближений для вероятностей p(b1b2bm) появления m-грамм b1b2bm в открытом тексте, m Î N, A = {a1,…,an}- алфавит открытого текста, bi ÎA, . Тогда источник "открытого текста" генерирует последовательность c1,c2,…,ck,ck+1,… знаков алфавита A, в которой m-грамма c1c2ck появляется с вероятностью

p(c1c2cmP(m)(A).