Алгоритм древ

Данный алгоритм является методом качественного обобщения по признакам и предложен как развитие алгоритма обобщения Э. Ханта – CLS.

В основе метода используется дерево решений – один из способов разбиения множества данных на классы или категории. Решающее дерево классифицирует примеры в конечное множество классов. Вершины дерева, не являющиеся концевыми, помечены именами атрибутов, ребра – допустимые значения этого атрибута, концевые вершины – имена классов. Процесс классификации заключается в прохождении пути по дереву по ребрам, соответствующим значениям атрибутов объекта.

Идея алгоритма состоит в следующем: ставится задача построения обобщенного понятия на основе анализа обучающей выборки S, содержащей примеры К⁺ и контрпримеры К^-. При этом формируется логическая функция принадлежности к обобщенному понятию, которая служит классифицирующим правилом. В этой логической функции переменные, отражающие значения признаков, соединены операциями конъюнкции, дизъюнкции и отрицания.

На первом этапе работы алгоритма делается попытка сформировать обобщенное конъюнктивное понятие на основе поиска признаков, значения которых являются общими для всех объектов выборки К⁺ и не встречаются среди контрпримеров К^-. Результатом должна стать логическая функция П_к, значение которой равно 1 на всех примерах из К⁺ и равно 0 на всех контрпримерах из К^-.

Затем формируется обобщенное дизъюнктивное понятие П_д, построение которого начинается c выбора среди элементов К⁺ такого признака А_i , который является наиболее существенным для обобщенного понятия. Для выбранного признака ищется значение F, которое называется разделяющим значением, так как на его основе происходит разбиение выборок К⁺ и К^- на две пары подвыборок: К⁺¹ и К^-1, К^+-1 и К^--1.