Ранговая корреляция.

Пусть объекты генеральной совокупности обладают двумя качественными признаками (то есть признаками, которые невозможно измерить точно, но которые позволяют сравнивать объекты между собой и располагать их в порядке убывания или возрастания качества). Договоримся для определенности располагать объекты в порядке ухудшения качества.

Пусть выборка объема п содержит независимые объекты, обладающие двумя качествен-ными признаками: А и В. Требуется выяснить степень их связи между собой, то есть установить наличие или отсутствие ранговой корреляции.

Расположим объекты выборки в порядке ухудшения качества по признаку А, предполагая, что все они имеют различное качество по обоим признакам. Назовем место, занимаемое в этом ряду некоторым объектом, его рангом хi:х1 = 1, х2 = 2,…, хп = п.

Теперь расположим объекты в порядке ухудшения качества по признаку В,присвоив им ранги уi , где номер i равен порядковому номеру объекта по признаку А, а само значение ранга равно порядковому номеру объекта по признаку В. Таким образом, получены две последовательности рангов:

по признаку Ах1, х2,…, хп

по признаку Ву1, у2,…, уп .

При этом, если, например, у3 = 6, то это означает, что данный объект занимает в ряду по признаку А третье место, а в ряду по признаку В – шестое.

Сравним полученные последовательности рангов.

  1. Если xi = yi при всех значениях i, то ухудшение качества по признаку А влечет за собой ухудшение качества по признаку В, то есть имеется «полная ранговая зависимость».
  2. Если ранги противоположны, то есть х1 = 1, у1 = п; х2 = 2, у2 = п – 1;…, хп = п, уп = 1, то признаки тоже связаны: ухудшение качества по одному из них приводит к улучшению качества по другому («противоположная зависимость»).
  3. На практике чаще всего встречается промежуточный случай, когда ряд уi не монотонен. Для оценки связи между признаками будем считать ранги х1, х2,…, хп возможными значениями случайной величины Х, а у1, у2,…, уп – возможными значениями случайной величины Y. Теперь можно исследовать связь между Х и Y, вычислив для них выборочный коэффициент корреляции

, (21.2)

где (условные варианты). Поскольку каждому рангу xi соответствует только одно значение yi, то частота любой пары условных вариант с одинаковыми индексами равна 1, а с разными индексами – нулю. Кроме того, из выбора условных вариант следует, что , поэтому формула (21.2) приобретает более простой вид:

. (21.3)

Итак, требуется найти и .

Можно показать, что . Учитывая, что , можно выразить через разности рангов . После преобразований получим: , , откуда . Подставив эти результаты в (21.3), получим выборочный коэффициент ранговой корреляции Спирмена:

. (21.4)

Свойства выборочного коэффициента корреляции Спирмена.

 

  1. Если между А и В имеется «полная прямая зависимость», то есть ранги совпадают при всех i, то ρВ = 1. Действительно, при этом di = 0, и из формулы (21.4) следует справедливость свойства 1.
  2. Если между А и В имеется «противоположная зависимость», то ρВ = - 1. В этом случае, преобразуя di = (2i – 1) – n, найдем, что , тогда из (21.4)
  3. В остальных случаях -1 < ρB < 1, причем зависимость между А и В тем меньше, чем ближе | ρB | к нулю.

 

Итак, требуется при заданном уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена ρг при конку-рирующей гипотезе Н1: ρг 0. Для этого найдем критическую точку:

, (21.5)

где п – объем выборки, ρВ – выборочный коэффициент ранговой корреляции Спирмена, tкр (α, k) – критическая точка двусторонней критической области, найденная по таблице критических точек распределения Стьюдента, число степеней свободы k = n – 2.

Тогда, если | ρB | < Tкр, то нулевая гипотеза принимается, то есть ранговая корреляционная связь между признаками незначима.

Если | ρB | > Tкр, то нулевая гипотеза отвергается, и между признаками существует значимая ранговая корреляционная связь.

Можно использовать и другой коэффициент – коэффициент ранговой корреляции Кендалла. Рассмотрим ряд рангов у1, у2,…, уп, введенный так же, как и ранее, и зададим величины Ri следующим образом: пусть правее у1 имеется R1 рангов, больших у1; правее у2R2 рангов, больших у2 и т.д. Тогда, если обозначить R =R1 + R2 +…+ Rn-1, то выборочный коэффициент ранговой корреляции Кендалла определяется формулой

(21.6)

где п – объем выборки.

Замечание. Легко убедиться, что коэффициент Кендалла обладает теми же свойствами, что и коэффициент Спирмена.

Для проверки нулевой гипотезы Н0: τг = 0 (генеральный коэффициент ранговой корреляции Кендалла равен нулю) при альтернативной гипотезе Н1: τг ≠ 0 необходимо найти критическую точку:

, (21.7)

где п – объем выборки, а zкр – критическая точка двусторонней критической области, определяемая из условия по таблицам для функции Лапласа.

Если | τB | < Tкр , то нулевая гипотеза принимается (ранговая корреляционная связь между признаками незначима).

Если | τB | > Tкр , то нулевая гипотеза отвергается (между признаками существует значимая ранговая корреляционная связь).