КЛАСТЕРНЫЙ АНАЛИЗ

Основная цель:Термин кластерный анализ (впервые ввел Tryon,1939) в действительности включает в себя набор различных алгоритмов классификации респондентов (в общем случае).

Общий вопрос, задаваемый исследователями во многих облас­тях, состоит в том, как организовать наблюдаемые данные в нагляд­ные структуры, т.е. развернуть таксономии.

Например:биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соот­ветствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным.

Проверка статистической значимости

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".

Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима.

Области применения

Техника кластеризации применяется в самых разнообразных об­ластях. Хартиган (Нагйдап, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, получен­ные методами кластерного анализа:

- в области медицины: кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям;

- в области психиатрии: правильная диагностика кластеров симптомов (паранойя, шизофрения и т.д.) является решающей для успешной терапии;

- в археологии: с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д.;

- в маркетинговых исследованиях: когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработкигруппам, кластерный анализ оказывается весьма полезным и эффективным.

 

Метод кластеризации - Объединение(древовидная кластеризация)

Общая логика: алгоритм состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами.

Типичным результатом такой кластеризации является иерархическое дерево.

Иерархическое дерево - горизонтальная древовидная диаграмма).

1) Диаграмма начинается с каждого объекта в классе (в левойчасти диаграммы).

2) Постепенно (очень малыми шагами) "ослабляем" критерий о том, какие объекты являются уникальными, а какие нет (понижаем порог, относящийся к решению об объединении двух или более объектов в один кластер).

3) Связываются вместе всё большее число объектов и объединяется все больше кластеров, состоящих из все сильнее различающихся элементов.

4) Окончательно, на последнем шаге все объекты объединяются в месте.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

 

 

Dendrogram using Average Linkage (Between Groups)

 

Rescaled Distance Cluster Combine