Міри зв’язку для інтервальних змінних

Для аналізу зв’язку між змінними, які вимірюються на інтервальному рівні, часто застосовують графічне представлення такого зв’язку – діаграму розсіювання. На діаграмі кожне спостереження (кожний випадок) зображується точкою у двомірній системі координат. Ось Х шкалюється у одиницях незалежної змінної, ось Y - у одиницях залежної змінної. Таким чином, координати кожної точки відповідають її положенню відносно осей Х та Y.

y_i . .

. .. . . .

. .

х_і

Через хоча б дві точки можна провести пряму, причому це необхідно робити таким чином, щоб жодна інша пряма не пройшла ближче до всіх точок. Таку пряму називають лінією регресії. Безумовно, деякі випадки “відхилятимуться” від даної траєкторії у той чи інший бік, порушуючи “ідеальність” зв’язку, начебто “розмиваючи” його. Це пояснюється тим, що залежності між характеристиками соціальних об’єктів рідко мають функціональний характер, коли кожному х_і відповідає чітко визначене у_і. У більшості випадків має місце кореляційний зв’язок: х впливає на у, перебуваючи, у свою чергу, під впливом інших змінних (так само як й у) і ці впливи часто дуже складно відокремити один від одного. Це спричиняє появу на графіку залежності “аномальних” значень, які “не вкладаються” у загальну тенденцію. Наприклад, стаж впливає на ефективність праці, але не визначає її повністю: на неї чинять вплив також й кваліфікація, освіта, вік, стан здоров’я та інші чинники.

Показником “розмитості” кореляційного поля є величина S_xy:

_ _

S_xy = S (х_і – х) (у_і - у) / n

Щоб при розрахунку зв’язку між ознаками позбавитися впливу одиниць, в яких вони вимірюються, S_xy ділиться на показники стандартного відхилення х та у. В результаті формула для розрахунку зв’язку між х та у матиме вигляд:

_ _

r = S (х_і – х) (у_і - у) / n s_х s_у[87, с.99]

Якщо n < 50, для встановлення значимості r розраховується критерій Стьюдента для df = n - 2:

____________

t = r Ö (n – 2) / ( 1- r²)

Для n > 50 значимість r встановлюється за допомогою критерію Z:

______

Z = r Ö (n – 1) [101, с.178]

Значення r коливаються у межах від –1 (максимальна зворотна залежність) до +1 (максимальна пряма залежність). При r=0 відсутня лінійна залежність між змінними (в цьому випадку може мати місце криволінійна залежність, яка вимірюється за допомогою інших коефіцієнтів, зокрема, h). Як було зазначено вище, r вказує на тісноту зв’язку між змінними. Також інформативною щодо інтерпретації зв’язків є величина r²: вона вказує на частку значень у, яка пояснюється впливом х. Значення (1-r²) вказує на частку значень у, які пояснюються впливом інших змінних. Наприклад, якщо r = - 0,38, то можна зробити висновок, що у пояснює (-0,38)², чи приблизно 14% значень х.

Повернемося до розгляду графічного зображення кореляційного зв’язку - лінії регресії. За її допомогою можна визначити очікувані значення у за значеннями х. На цьому принципі базується регресійний аналіз. Рівняння, яке описує пряму лінію регресії, можна представити у такому вигляді:

Y = a _yx + b _yx X , де

Y – значення залежної змінною, яки ми передбачуємо, а – точка, в якій лінія регресії пересікає ось Y (тобто значення Y для Х = 0), b – коефіцієнт регресії, тобто нахил прямої. Нехай залежність між змінними, наприклад, стажем роботи та величиною зарплати - має лінійний характер та b дорівнює 20. Це означає, що при зростанні стажу на 1 рік зарплата збільшується на 20 гривень.

Значення коефіцієнту регресії розраховується за формулою:

b_yx = (n S х_іу_і - Sx_i Sу_i) / (n S x²_i- S x²_i)

_ _

а_yx = y - b_yx x

Часто доцільним є представлення величин не у одиницях їх вимірювання, а у стандартизованих одиницях – одиницях відхилення від середнього (процедура розрахунку стандартних, чи z-оцінок - наводиться у 3.1). Перевага використання стандартизованих змінних у регресійному аналізі полягає у тому, що лінія регресії в даному випадку проходить через початок координат; до того ж ми одержуємо можливість зіставити вплив на залежну змінну змінних, які вимірюються у різних одиницях (роки, грошові одиниці та ін.).

Для подальшого опису можливостей кореляційного аналізу наведемо ще один приклад. Нехай досліджується залежність між освітою матері (Х) та освітою дітей (Y). Значення обох змінних представлені кількістю років, які витрачаються на одержання освіти. Розрахунок r дозволив встановити його значення, яке дорівнює 0,71, та значення r²= 0,5. Це означає, що частка варіації значень Y (освіта дітей), яка пояснюється дією Х (освіта матері), складає 50% загальної дисперсії залежної змінної. Значення одержаних показників є достатньо великими, що виключає можливість випадковості появи зв’язку. Однак це не виключає ймовірності впливу на досліджувані змінні деякої іншої змінної чи їх сукупності (наприклад, фінансові можливості, інтелект і т.д.). Для перевірки цієї гіпотези слід розрахувати коефіцієнт часткової кореляції (розрахунок парних коефіцієнтів кореляції для кожних двох взаємопов’язаних, за нашою думкою, змінних буде занадто громіздким).

Частковою називають кореляцію між двома змінними, коли статистично контролюється, чи “підтримується на постійному рівні”, третя змінна (чи їх набір) [35, с.190].

Коефіцієнт кореляції між змінними Х та Y за умови контролю додаткової змінної Z позначають r_xy_._z. Для його розрахунку достатньо знати величини попарних кореляцій між змінними X, Y та Z – r_xy_,r_yz, r_xz:

______________

r_xy_._z= (r_xy - r_xz r_yz) / Ö (1- r²_xz) (1 – r²_yz)

Для характеристики ступеню зв’язку результуючої ознаки Y із сукупністю незалежних змінних використовують множинний коефіцієнт кореляції R²_y(1…_k), який розраховується за формулою:

1- R²_y(1…_k)= (1 – r²_y1) (1 – r²_y2.1) … (1 - r²_yn_{.23 …(}_k_-1))

Наприклад, для вивчення залежності тижневого бюджету вільного часу (Y) від рівня освіти (Х₁) та віку (Х₂) було одержано значення R²_y₍₁₂₎=0,323 (чи ~ 32%). Цей коефіцієнт показує, наскільки пояснюється змінність результуючої ознаки дією декількох незалежних. В нашому випадку включення у рівняння регресії незалежних змінних “рівень освіти” та “вік” пояснюватиме змінність тижневого бюджету вільного часу на 32% [101, с.181].

Як можна бачити з наведених прикладів, у більшості випадків залежна змінна опиняється під впливом одночасно багатьох факторів, чи незалежних змінних, що обумовлює необхідність побудови багатофакторного регресійного рівняння. Наприклад, якщо кількість гіпотетичних факторів дорівнюватиме трьом, рівняння матиме наступний вигляд:

Y = a + b₁ X₁+ b₂X₂ + b₃X₃

b₁, b₂, b₃– часткові коефіцієнти регресії – вказують на величину впливу відповідної змінної (Х₁, Х₂, Х₃) на залежну за умови контролю дії інших незалежних змінних. Як й інші члени регресійного рівняння, вони потребують процедури стандартизації (про це йшлося раніше). Числові значення стандартизованих коефіцієнтів множинної регресії коливаються у межах від –1 до 1 та не змінюють свого значення при зміні масштабу шкали (наприклад, при переході від вимірювання віку у роках до вимірювання у місяцях).