Кластерний та факторний види статистичного аналізу даних

Кластерний аналіз полягає у розбиванні сукупності об’єктів на групи (кластери) за рядом (k) ознак. Крім поняття “кластерний аналіз” також застосовують терміни “таксономія”, “автокласифікація”, “розпізнавання образів”. Якщо певну сукупність об’єктів, яка досліджується (це можуть бути респонденти, колективи, підприємства, населені пункти і т.д.) розташувати у системі координат, відкладаючи по осях значення їх ознак (вік, стаж, заробітна плата і т.п.), то в результаті одержуємо n точок (відповідно кількості об’єктів). Чім більш схожими є об’єкти за всіма ознаками, тим менша відстань відділятиме їх у даному просторі.

Множина близько розташованих одна щодо одної точок називається таксоном (кластером) та при інтерпретації розглядається як деякій соціальний тип [87, с.208]. Наочною ця процедура буде тільки при врахуванні не більше двох ознак об’єктів (тоді вони зображуються у двохвимірному просторі).

Мірами схожості об’єктів у кластерному аналізі виступають:

 

- коефіцієнти кореляції - перш за все, коефіцієнт кореляції Пірсона, який має суттєві переваги над іншими коефіцієнтами схожості, дозволяючи зменшити кількість невірних класифікацій;

- міри відстані, зокрема, Евклідова відстань:

__________

dij = Ö S (хіk - хjk)2

 

dij – відстань між об’єктами i та j;

хіk – значення k-тої змінної для і-того об’єкта;

хjk – значення k-тої змінної для j-того об’єкта.

 

 

- коефіцієнти асоціації (Q, Ф та ін.); вони застосовуються, коли необхідно встановити схожість між об’єктами, які описуються дихотомічними змінними.

До основних характеристик таксонів (кластерів) відносять:

 

- щільність, яка дозволяє визначити таксон як сгущення точок у просторі даних, відносно щільне у порівнянні з іншими областями простору;

- дисперсію, що характеризує ступінь розсіювання точок у просторі відносно центру кластеру;

- розмір, якій є тісно пов’язаним з дисперсією; якщо таксон має форму гіперсфери, доцільно вимірювати його радіус;

- форму - розташування точок у просторі;

- відділимість, що характеризує ступінь перекриття таксонів та відстань між таксонами у просторі ознак.

 

Кластерний аналіз реалізується у декілька етапів. Якщо у його основі лежить принцип агломерації об’єктів, то на першому етапі кожен об’єкт сприймається як окремий кластер, а на кожному наступному етапі сусідні кластери об’єднуються за певним критерієм (мінімум відстані, кореляційний зв’язок і т.д.). Дивизимний принцип передбачає послідовне розділення сукупності об’єктів на все більш однорідні групи. Ці та інші принципи класифікації об’єктів дозволяють шляхом ітеративної (багатоетапної) зміни центрів та інших параметрів сгущень зсувати їх центри у області концентрації об’єктів, виділяючи тим самим однорідні їх групи.

Результати класифікації представляють у вигляді таблиць, які містять основні характеристики статистичних розподілень ознак у кластерах, а також у графічній формі, наприклад, у вигляді дендрограм, що репрезентують розподілення об’єктів по групах на різних етапах класифікації.

Факторний аналіз, на відміну від кластерного, полягає не у класифікації об’єктів, а у класифікації їх ознак, тобто виявленні груп ознак, які мають схожій характер зміни при переході від одного об’єкта до іншого. Велику кількість ознак, які описують об’єкти, заміняють меншою кількістю комплексних характеристик (факторів) [87, с.210]. Факторне навантаження (“вага” фактора) характеризується як коефіцієнт кореляції фактора з ознакою.

 

Наприклад, при вивченні факторів, які впливають на трудову діяльність робітників, була обрана наступна система ознак об’єкту:

1. кваліфікація;

2. стаж роботи на підприємстві;

3. стаж роботи за спеціальністю;

4. освіта;

5. вік;

6. величина заробітної плати;

7. виконання норм виробітки;

8. стан трудової дисципліни;

9. якість роботи;

10. участь у раціоналізаторстві;

11. задоволеність роботою;

12. оцінка ступені фізичних навантажень;

13. задоволеність змістом праці;

14. оцінка організації праці;

15. задоволеність зарплатою;

16. задоволеність відносинами з адміністрацією;

17. оцінка справедливості розподілення премій;

18. задоволеність спеціальністю.

 

Як можна бачити, наведений перелік відібраних для аналізу ознак включає соціально-демографічні характеристики робітників, їх об’єктивне ставлення до праці, а також суб’єктивне ставлення (задоволеності-оцінки роботою в цілому та її окремим аспектами).

Процедура об’єднання ознак у фактори здійснювалася за допомогою парних коефіцієнтів кореляції Чупрова та Крамера. При виділенні двох факторів в одну групу влучають всі ознаки, які характеризують суб’єктивне ставлення щодо трудової діяльності (11-13), у другу – всі інші, тому що кореляційні зв’язки між ознаками першої групи (задоволеності-оцінки) виявилися більшими, ніж кореляція цих ознак із ознаками другої групи. Соціально-демографічні характеристики потрапили у другий фактор, виявляючи більший зв’язок з об’єктивним, чим з суб’єктивним ставленням до трудової діяльності.

При виділенні трьох факторів створюються групи, які описують:

1. f1 соціальні умови життєдіяльності (1-6);

2. f2 об’єктивне ставлення до праці (7-10);

3. f3 суб’єктивне ставлення до праці, орієнтацію на трудову діяльність (11-18).

У випадку чотирьох факторів група ознак суб’єктивного ставлення до праці розпадається на дві. До першої входять задоволеність спеціальністю, змістом праці, підприємством в цілому, відносинами з адміністрацією, до другою – всі інші [87,.210-215].

 

Аналогом факторного аналізу для якісних ознак є латентно-структурний аналіз.