Коэффициент корреляции

Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Полная положительная корреляция (r = +1)

Полная отрицательная корреляция (r = -1)

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве—Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n - 2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных (η = n - 2 = 6) при вычислении r (табл. В.4) и 7 пар данных (η = n - 2 = 5) при вычислении r_s (табл. 5 в дополнении Б.5).

Коэффициент Браве—Пирсона

Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):

r = ,

где ΣXY — сумма произведений данных из каждой пары;

n — число пар;

— средняя для данных переменной X;

— средняя для данных переменной Y;

s_x — стандартное отклонение для распределения x;

s_y — стандартное отклонение для распределения y.

Теперь мы можем использовать этот коэффициент для того, чтобы установить, существует ли связь между временем реакции испытуемых и эффективностью их действий. Возьмем, например, фоновый уровень контрольной группы.

Испытуемые	Эффективность (X)	Время реакции (Y)	XY
Д1
Д2
Д3
...	...	...	...
Ю8

ΣXY = 3142

n= 15 ∙ 15,8 ∙ 13,4 = 3175,8;

(n - 1)s_xs_y = 14 ∙ 3,07 ∙ 2,29 = 98,42;

r = = = -0,34.

Отрицательное значение коэффициента корреляции может означать, что чем больше время реакции, тем ниже эффективность. Однако величина его слишком мала для того, чтобы можно было говорить о достоверной связи между этим двумя переменными.

Теперь попробуйте самостоятельно подсчитать коэффициент корреляции для экспериментальной группы после воздействия, зная, что ΣXY = 2953:

n= .....

(n - 1)s_xs_y = .....

r = ==.....

Какой вывод можно сделать из этих результатов? Если вы считаете, что между переменными есть связь, то какова она — прямая или обратная? Достоверна ли она (см. табл. 4 (в дополнении Б.5) с критическими значениями r)?

Коэффициент корреляции рангов Спирмена r_s

Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r_s) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к +1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к -1, можно говорить о полной обратной зависимости.

Коэффициент r_s вычисляют по формуле

r_s = 1 - ,

где d — разность между рангами сопряженных значений признаков (независимо от ее знака), а n — число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).

Поскольку именно так обстоит дело с распределением значений эффективности и времени реакции в экспериментальной группе после воздействия, можно повторить расчеты, которые вы уже проделали для этой группы, только теперь не для коэффициента r, а для показателя r_s. Это позволит посмотреть, насколько различаются эти два показателя.

Испытуемые	Эффективность x	Время реакции y	Ранги x^*	Ранги y^*	d	d²
Д8
Д9
Д10				11,5	3,5	12,25
Д11				7,5	4,5	20,25
Д12				13,5	11,5	132,25
Д13			8,5		6,5	42,25
Д14			8,5	9,5
Ю9				11,5	1,5	2,25
Ю10
Д11				9,5	2,5	6,25
Ю12
Ю13
Ю14				7,5	4,5	20,25
Ю15				13,5	6,5	42,25
Ю16

*) Следует помнить, что: 1) для числа попаданий 1-й ранг соответствует самой высокой, а 15-й — самой низкой результативности, тогда как для времени реакции 1-й ранг соответствует самому короткому времени, а 15-й — самому долгому; 2) данным ex aequo придается средний ранг.

Σd² = 428

r_s = 1 - = 1 - = 0,24.

Таким образом, как и в случае коэффициента r, получен положительный, хотя и недостоверный, результат. Какой же из двух результатов правдоподобнее: r = -0,48 или r_s = +0,24? Такой вопрос может встать лишь в том случае, если результаты достоверны.

Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r_s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные — менее точно.

Поскольку в экспериментальной группе после воздействия был получен коэффициент r_s, равный 0,24, подобная тенденция здесь, очевидно, не прослеживается. Попробуйте самостоятельно разобраться в данных для контрольной группы после воздействия, зная, что Σd² = 122,5:

r_s = 1 - = 1 - = 1 - ..... ; достоверно ли?

Каков ваш вывод? ..........

Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, — вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.