Правило Байеса.

Пусть имеется группа событий (классов, к которым относятся входные сообщения), обладающая следующими свойствами:

1) все события попарно несовместны: ;

2) их объединение образует пространство элементарных исходов W:

В этом случае будем говорить, что H₁, H₂,..., H_n образуют полную группу событий. Такие события иногда называют гипотезами.

Рис. 2.5. Декодирование сигнала и выделение информации.

Пусть - полная группа событий и – некоторое событие. Тогда по формуле Байеса исчисляется вероятность реализации гипотезы при условии, что событие А произошло. Формула Байеса, полученная Т. Байесом в 1763 году, позволяет вычислить апостериорные вероятности событий через априорные вероятности и функции правдоподобия.

Здесь А – конкретное наблюдение (измерение). Формулу Байеса еще называют формулой вероятности гипотез. Будем считать, что у нас достаточно данных для определения вероятности принадлежности объекта каждому из классов. Вероятность называют априорной вероятностью гипотезы , а вероятность – апостериорной вероятностью, поскольку задает распределение индекса класса после эксперимента (a posteriori – т.е. после того, как измерение было произведено). Также будем считать, что известны функции распределения вектора признаков для каждого класса . Они называются функциями правдоподобия A по отношению к H_k. Если априорные вероятности и функции правдоподобия неизвестны, то их можно оценить методами математической статистики на множестве прецедентов. Байесовский подход исходит из статистической природы наблюдений. За основу берется предположение о существовании вероятностной меры на пространстве образов, которая либо известна, либо может быть оценена. Цель состоит в разработке такого классификатора, который будет правильно определять наиболее вероятный класс для пробного образа. Тогда задача состоит в определении "наиболее вероятного" класса.

Если априорные вероятности и функции правдоподобия неизвестны, то их можно оценить методами математической статистики на множестве прецедентов. Например, , где – число прецедентов из . – общее число прецедентов. может быть приближено гистограммой распределения вектора признаков для прецедентов из класса .

Рассмотрим случай двух классов и . Естественно выбрать решающее правило таким образом: объект относим к тому классу, для которого апостериорная вероятность выше. Такое правило классификации по максимуму апостериорной вероятности называется Байесовским: если , то классифицируется в , иначе в . Таким образом, для Байесовского решающего правила необходимо получить апостериорные вероятности . Это можно сделать с помощью формулы Байеса.

Итак, Байесовский подход к статистическим задачам основывается на предположении о существовании некоторого распределения вероятностей для каждого параметра. Недостатком этого метода является необходимость постулирования как существования априорного распределения для неизвестного параметра, так и знание его формы.

Байесовские процедуры классификации разработаны на основе теоремы Байеса и специально предназначены для работы со входными данными высокой размерности. Несмотря на простоту Байесовских процедур, результаты их работы по своим характеристикам могут превзойти результаты работы более сложных алгоритмов классификации.

Чтобы продемонстрировать основные принципы работы Байесовских процедур классификации, рассмотрим вышеприведенный пример. Как видно, объекты могут быть разделены на два класса: GREEN или RED. Наша цель - классифицировать новые наблюдения по мере их поступления, то есть нужно решить к какому классу они принадлежат, используя информацию о принадлежности классам уже имеющихся в нашем распоряжении объектов.

Так как объектов типа GREEN в два раза больше объектов типа RED, разумно предположить, что шансы принадлежности вновь поступившего наблюдения классу GREEN в два раза больше шансов принадлежать классу RED. В терминах байесовского анализа это предположение именуется априорной вероятностью. Априорная вероятность определяется накопленным опытом (в нашем случае процентным соотношением объектов типа GREEN и RED). Эта величина обычно используется для предсказания исходов до их реального наступления.

Таким образом, мы можем записать:

Так как общее число объектов - 60, 40 из них принадлежат классу GREEN и 20 - классу RED, то априорная вероятность принадлежности классу будет:

Определив априорную вероятность, мы готовы классифицировать новый объект (белый круг). В силу хорошей группировки объектов, разумно предположить, что чем больше объектов типа GREEN (или RED) попадает в окрестность точки X, тем вероятнее, что новое наблюдение будет принадлежать этому классу. Для вычисления степени правдоподобия, проведем окружность с центром в точке X, которая охватит априорно выбранное число точек безотносительно к их классовой принадлежности. Затем подсчитывается число точек каждого типа. По этим данным вычисляем степень правдоподобия:

На вышеприведенной иллюстрации видно, что степень правдоподобия принадлежности X классу GREEN ниже соответствующего значения для класса RED, так как окружность заключает 1 объект типа GREEN и 3 объекта типа RED. Следовательно:

Хотя априорная вероятность указывает на возможную принадлежность наблюдения X классу GREEN (объектов типа GREEN в два раза больше объектов типа RED), величина меры правдоподобия приводит к противоположному заключению: X принадлежит классу RED (в окрестности точки X объектов типа RED больше чем объектов типа GREEN). Конечное классифицирующее решение в байесовском анализе принимается на основе двух источников информации: априорной вероятности и степени правдоподобия. Для определения апостериорной вероятности применяется правило Байеса (названо в честь Thomas Bayes 1702-1761).

В результате мы классифицируем X как объект типа RED, так как апостериорная вероятность принадлежности этому классу имеет наибольшего значения.

Таким образом, мы можем записать: