Показатели измерения парной линейной корреляции

Для исследования степени тесноты связи между качественны­ми признаками, каждый из которых представлен в виде альтерна­тивных признаков, может быть использован коэффициент ассо­циации Д. Юлаиликоэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде:

Признаки А1 А0 Итого
В1 а b а + b
В0 с d с + d
Итого а + с b + d п

где: а, b, с, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков;

п - общая сумма частот.

Коэффициент ассоциации исчисляется по формуле:

Коэффициент контингенции:

Коэффициент контингенции по значению всегда меньше коэффициента ассоциации. Связь считается достаточно значимой и подтвержденной, если |Ка| > 0,5 или |Кк| >0,3

Для оценки тесноты связи между альтернативными при­знаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пир­сонаиА.А.Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы:

Признаки А1 А2 А3 Итого
B1 m11 m12 m13 Sm1j
B2 m21 m22 m23 Sm2j
B3 m31 m32 m33 Sm3j
Итого Smi1 Smi2 Smi3 n

где mij - частоты взаимного сочетания двух атрибутивных признаков;

n - число пар наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по фор­муле:

Коэффициент взаимной сопряженности Чупрова:

где f2 - показатель взаимной сопряженности;

К1, К2 – число строк и граф в таблице.

или в общем виде

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Биссериальный коэффициент корреляции – дает возможность оценить связь между качественным альтернативным и количественным варьирующим признаками.

– средняя в группах;

– среднее квадратическое отклонение фактических значений признака от среднего уровня;

p – доля первой группы;

q - доля второй группы;

z – табличные значения Z-распределения в зависимости от p.

 

 

В тех случаях, когда одна переменная измеряется в дихотоми­ческой шкале (переменная X), а другая в ранговой шкале (пере­менная Y), используется рангово-бисериальный коэффициент корреляции. Особо необходимо подчеркнуть, то что этот коэффициент изме­няется в диапазоне от -1 до +1, его знак для интерпретации ре­зультатов не имеет значения. Это еще одно исключение из обще­го правила.

Расчет этого коэффициента производится по формуле:

- средний ранг по тем элементам переменной Y, кото­рым соответствует код (признак) 1 в переменной X;

- средний ранг по тем элементам переменной Y, которым соответствует код (признак) 0 в переменной X;

N - общее количество элементов в переменной X

Для применения рангово-бисериального коэффициента корре­ляции необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть измерены в разных шкалах одна X - в дихотомической шкале, другая Y - в ран­говой шкале

2. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым

3. Для оценки уровня достоверности рангово-бисериального ко­эффициента корреляции следует пользоваться формулой (приведенной выше) и таблицей критических значе­ний для t-критерия Стьюдента при k = n – 2.

К показателям степени тесноты связи относят коэффициент корреляции знаков, который был предложен немецким ученым Г.Фехнером (1801-1887). Этот показатель основан на оценке степени согласованности направлений отклонений ин­дивидуальных значений факторного и результативного призна­ков от соответствующих средних. Для его расчета вычисляют средние значения результативного и факторного признаков, а за­тем проставляют знаки отклонений для всех значений взаимос­вязанных пар признаков.

Если ввести обозначения:

па - число совпадений знаков откло­нений индивидуальных величин от средней,

пв - число несовпа­дений знаков отклонений, то коэффициент Фехнера можно за­писать таким образом:

Коэффициент Фехнера может принимать различные значения в пределах от -1 до +1. Если знаки всех отклонений совпадут, то пв = 0 и тогда показатель будет равен 1, что свидетельствует о воз­можном наличии прямой связи. Если же знаки всех отклонений бу­дут разными, тогда па = 0 и коэффициент Фехнера будет равен -1, что дает основание предположить наличие обратной связи.

Как видно из приведенной формулы для расчета коэффици­ента Фехнера, величина этого показателя не зависит от величи­ны отклонений факторного и результативного признака от соот­ветствующей средней величины. Поэтому нельзя говорить о сте­пени тесноты корреляционной связи, а тем более об оценке ее су­щественности на основании только коэффициента Фехнера. При малом объеме исходной информации коэффициент Фехнера практически решает ту же задачу, которая ставится при построе­нии групповых и корреляционных таблиц, т.е. отвечает на вопрос о наличии и направлении корреляционной связи между признаками.

Более совершенным показателем, используемым для измерения тесноты связи как качественных, так и количественных факторов, при условии, что их значении можно проранжировать, является ранговый коэффициент корреляции Спирмена (также называемый коэффициент корреляции рангов Спирмена по имени английского психолога разработавшего данный коэффициент Ч.Спирмена (1863-1945)) который имеет вид:

RiX, RiY - ранги по результативному и факторному признаку;

n – объем изучаемой совокупности.

Ранжирование – процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранг – это порядковый номер единицы совокупности в ранжированном ряду.

Коэффициент корреляции Спирмена может принимать значения от 0 до ± 1.

Преимущество коэффициента корреляции рангов состоит в том, что на его основе оценивается коррелированность качественных признаков, не имеющих точного количественного измерения.

Коэффициент линейной корреляции был предложен английским статистиком К.Пирсоном. Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего значения на r его среднего квадратического отклонения.

Коэффициент корреляции яв­ляется отвлеченным показателем, характеризующим тесноту связи между переменными, если эта связь линейная. Одной из формул расчета показателя является следующая:

Коэффициент корреляции обладает следующими свойствами:

Принимает значения на отрезке [-1;1]

0 – связь между x и y отсутствует;

(0-0,3] - связь присутствует но она незначительна;

(0,3-0,5] - умеренная связь;

(0,5-0,7] - средняя связь;

(0,7-0,99] - тесная связь;

1 - связь между x и y функциональная.

Следующий коэффициент – коэффициент детерминации, равный квадрату коэффициента корреляции , выраженный в процентах и показывающий, какой процент вариации результата признака объясняется вариацией факторного признака.