Критерии распознавания открытого текста.

Строятся на основе моделей открытого текста двумя методами:

· на основе различения статистических гипотез;

· на основе ограничений по запретным или ожидаемым сочетаниям букв (ЪЪ и прочие).

Первый подход:

Открытый текст – реализация независимых испытаний случайной величины, значениями которой являются буквы алфавита A = {a₁,…,a_n}, появляющиеся в соответствии с распределением вероятностей P(A) = (p(a₁),…, p(a_n)). Требуется определить, является ли случайная последовательность c₁c₂…c_l букв алфавита A открытым текстом или нет.

Пусть H₀ – гипотеза, состоящая в том, что данная последовательность – открытый текст, H₁ – альтернативная гипотеза. В простейшем случае последовательность c₁c₂…c_l можно рассматривать при гипотезе H₁ как случайную и равновероятную либо реализация независимых испытаний некоторой случайной величины, значениями которой являются буквы алфавита A = {a₁,…,a_n}, появляющиеся в соответствии с распределением вероятностей Q(A) = (q(a₁),…, q(a_n)).

Наиболее мощный критерий различения двух простых гипотез – лемма Неймана-Пирсона. Также может использоваться и теорема Фробениуса.

Возможны ошибки двух родов:

Ø ошибка первого рода (открытый текст принят за случайный набор знаков) ее вероятность ;

Ø ошибка второго рода (случайный набор знаков принимается за открытый текст) ее вероятность .

Второй подход:

Критерий запретных m-грамм. Устроен просто. Отбирается некоторое число s редких m-грамм, которые объявляются запретными. Теперь последовательно просматривая все m-граммы анализируемой последовательности c₁c₂…c_l , мы объявляем ее случайной как только в ней встретится одна из запретных k-грамм. Весьма эффективны несмотря на простоту.

Распознавание открытого текста производится также на основе особенностей нетекстовых сообщений (файловые метки и пр.).