Парная корреляция и парная регрессия

 

Величины бывают факторными и результативными, зависимыми и независимыми. Если случайных величин две, то говорят о парной зависимости результативной величины от факторной. Если случайных величин больше двух, то говорят о множественной зависимости результативной величины от нескольких факторных величин.

Зависимость между величинами может быть более сильной или более слабой, может быть функциональной, а может ее и не быть вовсе. Очевидно, что силу связи между величинами надо как-то измерять. Для оценки связи между двумя случайными величинами х и у используется числовая характеристика, которую в теории вероятностей называют корреляционный момент и обозначают . В статистике его называют моментом ковариации и обозначают – cov(xy). Следовательно, = cov(xy).

По физическому смыслу корреляционный момент это математическое ожидание произведения центрированных случайных величин, т.е.

.

Пример 3. 1. В результате опыта получены значения

Определить, являются ли зависимыми величины х и у.

Р е ш е н и е. 1. Находим средние значения х и у.

. .

2. Рассчитываем

-2 -1
-4 -2

3. Вычисляем

=.

Выводы. 1. - это значит, что связь между х и у существует (для независимых случайных величин ).

2. - это значит, что связь положительная, т.е. с увеличением х значение у в среднем возрастает.

Как видно из расчетной формулы, корреляционный момент зависит от рассеивания. Чем больше значения и , тем больше значение . Одной из характеристик рассеивания является среднее квадратическое отклонение. Чтобы избавиться от влияния рассеивания на корреляционный момент его делят на средние квадратические отклонения. В результате имеем

.

Полученное значение называют коэффициент корреляции. Коэффициент корреляции характеризует степень тесноты линейной зависимости между случайными величинами х и у. В отличии от корреляционного момента значения коэффициента корреляции могут изменяться от -1 до +1. Принято считать, что если < 0,30, то связь слабая; при = (0,3÷0,7) – средняя; при > 0,70 – сильная, или тесная. Еслиили , то между случайными величинами х и у имеется линейная функциональная зависимость. При этом, если , то связь положительная, если , то связь отрицательная (знаки и одинаковы). Если , то линейной вероятностной зависимости между случайными величинами х и у не существует. Однако в этом случае возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей.

Пример 3. 2. В условиях примера 1 определить коэффициент корреляции.

Р е ш е н и е. 1. Определяем значения средних квадратических отклонений:

;

2. Вычислим .

Выводы. Между величинами х и у имеется линейная положительная зависимость вида .

Порядок определения коэффициентов и b рассмотрен ранее.

Напомним: ; , где .

Вычислим: .

Величины Значения Среднее значение

. .

Следовательно, уравнение регрессии имеет вид

.

Пусть х = 3, тогда , что соответствует исходным данным.

Выводы. 1 . Замечаем, как , так и , Это совпадение не случайное. Следовательно, значение корреляционного момента можно рассчитывать по любой из формул :

или .

2. Угол наклона линии регрессии равен .

3. Коэффициент k показывает, на сколько в среднем изменится у, при изменение х на одну единицу.

4. При , значение .

В рассмотренных примерах присутствовали две случайные величины х и у. Связь двух признаков принято называть парной. Если рассматривается более двух переменных, говорят о множественной связи и описывают ее уравнением множественной регрессии.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи одной из множества независимых переменных.