Алгоритм древ

Данный алгоритм является методом качественного обобщения по признакам и предложен как развитие алгоритма обобщения Э. Ханта – CLS.

В основе метода используется дерево решений – один из способов разбиения множества данных на классы или категории. Решающее дерево классифицирует примеры в конечное множество классов. Вершины дерева, не являющиеся концевыми, помечены именами атрибутов, ребра – допустимые значения этого атрибута, концевые вершины – имена классов. Процесс классификации заключается в прохождении пути по дереву по ребрам, соответствующим значениям атрибутов объекта.

Идея алгоритма состоит в следующем: ставится задача построения обобщенного понятия на основе анализа обучающей выборки S, содержащей примеры К+ и контрпримеры К-. При этом формируется логическая функция принадлежности к обобщенному понятию, которая служит классифицирующим правилом. В этой логической функции переменные, отражающие значения признаков, соединены операциями конъюнкции, дизъюнкции и отрицания.

На первом этапе работы алгоритма делается попытка сформировать обобщенное конъюнктивное понятие на основе поиска признаков, значения которых являются общими для всех объектов выборки К+ и не встречаются среди контрпримеров К-. Результатом должна стать логическая функция Пк, значение которой равно 1 на всех примерах из К+ и равно 0 на всех контрпримерах из К-.

Затем формируется обобщенное дизъюнктивное понятие Пд, построение которого начинается c выбора среди элементов К+ такого признака Аi , который является наиболее существенным для обобщенного понятия. Для выбранного признака ищется значение F, которое называется разделяющим значением, так как на его основе происходит разбиение выборок К+ и К- на две пары подвыборок: К+1 и К-1, К+-1 и К--1.