C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

3 òûòòòòòòòòòø

7 ò÷ ùòòòòòòòòòòòòòø

6 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòø

2 òòòòòòòòòòòûòòòòòòòòòòòòò÷ ó

8 òòòòòòòòòòò÷ ó

4 òòòûòòòòòø ó

5 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

1 òòòòòòòòò÷

 

 

В результате успешного анализа методом объединения появля­ется возможность обнаружить кластеры (ветви) и интерпретировать их.

Меры расстояния

1) Расстояния могут определяться в одномерном или многомер­
ном пространстве {например: кластеризация типов еды в кафе, то
можете принять во внимание количество содержащихся в ней кало­
рий, цену, субъективную оценку вкуса и т.д.).

2) Вычисление расстояния

Евклидово расстояние. Это наиболее общий тип расстояния. Оно является реальным геометрическим расстоянием между объек­тами в многомерном пространстве и вычисляется следующим обра­зом:

расстояние(х,у) =

Расстояние городских кварталов (манхэттенское расстоя­ние). Это расстояние является просто средним разностей по коорди­натам. В большинстве случаев эта мера расстояния приводит к та­ким же результатам, как и для обычного расстояния Евклида.

расстояние(х,у) =

3) Правила объединения в кластеры

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстоя­ния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами?

Одиночная связь (метод ближайшего соседа) -расстояние между двумя кластерами определяется расстоянием между двумя наибо­лее близкими объектами (ближайшими соседями) в различных кла­стерах.

Полная связь (метод наиболее удаленных соседей) -расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

 

Невзвешенное попарное среднее - расстояние вычисляется как среднее между всеми парами объектов в различных кластерах.

Взвешенное попарное среднее - идентичен предыдущему, но при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента.