Регуляризация задачи распознавания

 

В соответствии со стратегией Байеса, если у распознаваемого объекта со измеренное значение признака х = х0 , то

 

(4.47)

 

Хотя решение задачи х=х0 и обеспечивает минимум среднего (байесовского) риска, т. е. , такое решающее правило (4.47) при наличии ошибок измерения является неустойчивым.

Если значение признака х измеряется с некоторой точностью 8х, то для диапазона его изменения (х0—dх, х0+dх) решение, принятое по измеренному значению х=х0 (выбранный класс), может отличаться от того, которое соответствует истинному значению признака х. Поэтому область значений признака (х0—dх, х0+dх) может быть названа областью неустойчивости стратегии минимизации среднего риска (стратегии Байеса). Величина dх имеет вполне определенный физический смысл. В качестве dх можно рассматривать, например, среднеквадратичную или максимальную ошибку измерения [18].

Общий подход к некорректным задачам, имеющим неустойчивые решения, предложенный академиком А. Н. Тихоновым, состоит в их регуляции, т. е. в таком изменении постановки, при котором вновь полученная задача является приближенной к исходной и обладает свойством устойчивости.

Применительно к рассматриваемой задаче распознавания этот подход можно реализовать следующим образом.

Трансформируем решающее правило (4.47) так, что в пределах зоны неустойчивости (х0 — dх, х + dх) алгоритм отказывается от принятия решения. Если у объекта w измеренное значение признака х-х0, то

 

(4.48)

 

Использование такого алгоритма распознавания исключает неустойчивые решения задачи за счет того, что появляются такие значения признака х=х0±dх, в пределах которых алгоритм распознавания не дает ответа на вопрос о том, к какому классу следует отнести распознаваемый объект.

Регуляризация задачи распознавания приводит к тому, что ошибки первого и второго рода уменьшаются:

 

(4.49)

 

(4.50)

 

Уменьшается регуляризованное значение среднего байесовского риска:

 

(4.51)

 

При этом

 

(4.52)

 

Оценим вероятность отказа системы от установления класса, к которому можно отнести распознаваемый объект. Искомая вероятность отказа

 

(4.53)

 

зависит непосредственно от точности измерения признака распознаваемого объекта.

Если функции плотности f1(х) и f2(х) подчинены нормальным законам распределения N(m1 d1) и N(m2, d2), то Qp1 и Qp2 равны:

 

(4.54)

(4.55)

 

где F[×] — функция Лапласа. Таблицы функций Лапласа приведены в [16]. Вероятность отказа системы от распознавания

 

(4.56)

 

При построении систем распознавания нужно стремиться по возможности минимизировать область неустойчивости стратегии Байеса, т. е. минимизировать дипазон значений признаков, в пределах которого система распознавания не обеспечивает решений. Это может быть достигнуто за счет уменьшения величин dxj, j=l, ..., N. Однако в общем случае это сопряжено с увеличением расходов ресурсов, величина которых не может быть безгранична. Возникает вопрос: точность какого (каких) измерителя следует в первую очередь повышать?

Как показано в [19], информативность признаков — величина не абсолютная, а условная, поэтому ответа на поставленный вопрос, по-видимому, не существует. Однако эвристическая рекомендация прикладного характера может состоять в следующем. Прежде всего необходимо найти наиболее информативный признак рабочего словаря признаков в предположении, что он определяется на первой стадии экспериментов. Целесообразно обеспечить максимально возможную точность измерения этого признака (например хl, 1=1, ..., N). Далее следует определить такой признак хk, k=1,...,И,k¹l, измерение которого вносит в систему распознавания наибольшее количество информации в предположении, что на предыдущем шаге определен признак хl т. е.

В этом уравнении количество информации подсчитывают при всех возможных значениях признаков хk, xl хj, k, l, j=1, ..., N, k¹l ¹j. Затем процедура повторяется, т. е. определяют

 

 

Как правило, определение уже нескольких признаков оказывается достаточным для решения интересующего нас вопроса. Именно между измерителями, предназначенными для определения признаков хl, хk, хr, целесообразно распределить основную часть ресурсов, предназначенных для аппаратурного обеспечения системы распознавания, повысить их точностные характеристики, а значит, уменьшить области неустойчивых решений задачи распознавания при использовании именно этих признаков.

В тех ситуациях, когда при разработке системы распознавания нет выбора в применении тех или других измерителей, предназначенных для определения конкретных признаков, следует крайне внимательно относиться к вопросу о предпочтении использования того или иного признака. Важно проводить детальный анализ ситуаций путем моделирования работы системы. При наличии альтернатив (например, признак хk информативнее xl но ошибка измерения хk больше ошибки измерения признака xl) можно оценить, какое решение представляется более рациональным: использовать признак хk или xl а может быть, и тот и другой. В связи с отсутствием в настоящее время формального решения этой задачи интересующий нас ответ может быть получен только путем моделирования ситуаций.