Кластеризация

Вначале необходимо осуществить импорт рассматриваемых данных из файла.

После этого выбираем и запускаем Мастер обработки "Кластеризация". При запуске Мастера необходимо настроить назначения столбцов, т.е. выбрать свойства, по которым будет происходить группировка объектов. Укажем столбцам "Численность населения " и "Регион" назначение "Информационное", а столбцам "Удельный вес городского населения", "Изменение численности населения", "Число родившихся на 1000", "Число умерших на 1000", "Среднегодовая численность населения занятых в экономике", "Среднедушевой денежный доход"– "Входное". (Рис.3.1).

На следующем шаге Мастера необходимо настроить способ разделения исходного множества данных на тестовое и обучающее, а также количество примеров в том и другом множестве. Укажем, что данные обоих множеств берутся случайным образом, и определим все множество как обучающее.

Следующий шаг предлагает настроить параметры кластеризации, определить на какое количество кластеров будет распределяться исходное множество. По мнению экспертов в стране наблюдается четыре тенденции развития регионов, поэтому выберем фиксированное количество кластеров равное четырем.

Рисунок 3.1 – Настройка столбцов входного файла

Рисунок 3.2 – Определение способов отображения результатов

Для отображения полученных групп кластеров выберем в обработчике "Кластеризация" из списка визуализаторов способы отображения данных: "Что-если" для решения задачи классификации, отнесение региона к одному из кластеров, "Профили кластеров" для определения структуры формирования группы кластеров и "Куб" для наглядного просмотра полученных результатов.

Для настройки визуализатора "Куб" необходимо выбрать рассматриваемые свойства как факты, а номер кластера и регионы как измерение. Наиболее правильно в дальнейших настройках задать отображение фактов как среднее по рассматриваемой группе.

Общую структуру сформированных алгоритмом кластеров можно просмотреть в визуализаторе "Профили кластеров". В нем представлены все рассматриваемые свойства вместе с характером влияния их на состав кластера.

Основным определяющим состав кластера фактором является значимость свойств, выраженная в процентах. Общая значимость рассматриваемого поля определяется вариабельностью ее рассматриваемых параметров. Значимость для непрерывных и дискретных полей определяется по-разному. Значимость для непрерывных полей устанавливается в зависимости от отклонения среднего значения рассматриваемой группы кластеров от общего среднего всей выборки, чем больше выражено данное отклонение, тем больше его значимость. Значимость для дискретных полей определяется наличием индивидуальных различий, между рассматриваемыми группами, чем больше выражены различия, тем больше значимость. Для каждого рассматриваемого свойства в кластере вычисляется: доверительный интервал, среднее, стандартное отклонение и стандартная ошибка.

Алгоритм автоматически разбил регионы на четыре кластера с разной поддержкой и разными процентами значимости свойств. Первый кластер является показателем демографической обстановки страны, так как собрал в себя максимальное количество записей. Наиболее ярко выраженными кластерами по заданным свойствам является нулевой и третий кластер они максимально отличаются от остальных рассматриваемых групп значениями свойств, и минимальной поддержкой.

Рисунок 3.4 – Определение показателей

Рисунок 3.5 – Таблица параметров кластеров

Малозначимым и почти не влияющим свойством на распределение является изменение численности населения по сравнению с предыдущим годом, при необходимости данным свойством можно пренебречь.

Определим кластеры, где самым значимым параметром является среднедушевой доход, для этого нажмем кнопку настройка сортировки на панели инструментов, и зададим параметры сортировки. Выберем тип сортировки по значимости, направление по убыванию и поле по которому будем производить сортировку, остальное оставим без изменения (рис. 3.6).

Кластеры поменялись местами в зависимости от значимости среднедушевого дохода в рассматриваемом наборе. Наиболее отличающиеся кластеры по среднедушевому годовому отчету будут иметь максимальную значимость (рис. 3.8).

Рисунок 3.6 – Настройка сортировки

Результаты по сформированным кластерам наиболее удобно рассматриваются с помощью визуализатора "Куб", в котором встроена кросс-диаграмма, изображающая полученные кластеры в графическом виде, что существенно упрощает анализ (рис. 3.9).

При построении кросс-диаграммы на панели инструментов окна кросс-диаграммы нажмите кнопки «Нормализация, приведение графиков к единому масштабу».

Рисунок 3.8 – Распределение кластеров по среднедушевому доходу

Добавьте в кросс-диаграмму все параметры, по которым проводилась кластеризация, и легенду, которая укажет каким цветом какой параметр отображается.

В трех из четырех кластеров наблюдается картина, того, что численность населения очень сильно падает, число умерших в несколько раз больше числа родившихся. Эти кластеры показывают демографическую обстановку в РФ, так как в их состав входит большая часть регионов страны. Имеется только один кластер, где положение дел более-менее хорошее, это первый кластер. На основе анализа демографической политики данного региона можно поднять рождаемость в стране.

Рисунок 3.9 – Вид профиля кластеров после переименования

Рисунок 3.10 – Кросс-диаграмма кластеров в графическом виде

Из полученной кросс-диаграммы видно, что все регионы разбились на четыре кластера, условно можно их назвать:

· "Дотационные" ;

· "Возрождающиеся" ;

· "Вымирающие малые города" ;

· "Вымирающие большие города" .

С помощью кнопки переименование кластеров можно присвоить им рабочее название в профиле кластеров (рис. 3.7). Подумайте, какому из кластеров какое имя присваивать, изучив показатели по кросс-диаграмме. В вашем случае номера кластеров могут меняться.

Рисунок 3.7 – Переименование кластеров