Проверка качества кластеризации

После получений результатов кластерного анализа методом k-сред­них, следует проверить правильность кластеризации (т.е. оценить, на­сколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измере­ний или хотя бы большей их части.

Достоинства алгоритма k -средних:

•простота использования;

•быстрота использования;

•понятность и прозрачность алгоритма.

 

 

       
   
 
 

 


Название каждого объекта

наиболее подходящему

(похожему) кластеру

 

 


Пересчет

кластерных центров (покоординатных средних)

Перераспределение Перераспределение

объектов объектов


Пересчет

кластерных центров (покоординатных средних)

 

 

Рис.14.1. Пример работы алгоритма k-средних (k=2)

Недостатки алгоритма k -средних:

• алгоритм слишком чувствителен к выбросам, которые могут исказить
среднее. Возможным решением этой проблемы является модификации алгоритма — алгоритм k -медианы;

• алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки
данных.

 

Алгоритм РАМ ( partitioning around Medoids)

РАМ является модификацией алгоритма k-средних, алгоритмом k -медианы (k-medoids).

Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов.

РАМ эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.