Величины бывают факторными и результативными, зависимыми и независимыми. Если случайных величин две, то говорят о парной зависимости результативной величины от факторной. Если случайных величин больше двух, то говорят о множественной зависимости результативной величины от нескольких факторных величин.
Зависимость между величинами может быть более сильной или более слабой, может быть функциональной, а может ее и не быть вовсе. Очевидно, что силу связи между величинами надо как-то измерять. Для оценки связи между двумя случайными величинами х и у используется числовая характеристика, которую в теории вероятностей называют корреляционный момент и обозначают . В статистике его называют моментом ковариации и обозначают – cov(xy). Следовательно, = cov(xy).
По физическому смыслу корреляционный момент это математическое ожидание произведения центрированных случайных величин, т.е.
.
Пример 3. 1. В результате опыта получены значения
Определить, являются ли зависимыми величины х и у.
Р е ш е н и е. 1. Находим средние значения х и у.
. .
2. Рассчитываем
-2 | -1 | ||||
-4 | -2 | ||||
3. Вычисляем
=.
Выводы. 1. - это значит, что связь между х и у существует (для независимых случайных величин ).
2. - это значит, что связь положительная, т.е. с увеличением х значение у в среднем возрастает.
Как видно из расчетной формулы, корреляционный момент зависит от рассеивания. Чем больше значения и , тем больше значение . Одной из характеристик рассеивания является среднее квадратическое отклонение. Чтобы избавиться от влияния рассеивания на корреляционный момент его делят на средние квадратические отклонения. В результате имеем
.
Полученное значение называют коэффициент корреляции. Коэффициент корреляции характеризует степень тесноты линейной зависимости между случайными величинами х и у. В отличии от корреляционного момента значения коэффициента корреляции могут изменяться от -1 до +1. Принято считать, что если < 0,30, то связь слабая; при = (0,3÷0,7) – средняя; при > 0,70 – сильная, или тесная. Еслиили , то между случайными величинами х и у имеется линейная функциональная зависимость. При этом, если , то связь положительная, если , то связь отрицательная (знаки и одинаковы). Если , то линейной вероятностной зависимости между случайными величинами х и у не существует. Однако в этом случае возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей.
Пример 3. 2. В условиях примера 1 определить коэффициент корреляции.
Р е ш е н и е. 1. Определяем значения средних квадратических отклонений:
;
2. Вычислим .
Выводы. Между величинами х и у имеется линейная положительная зависимость вида .
Порядок определения коэффициентов и b рассмотрен ранее.
Напомним: ; , где .
Вычислим: .
Величины | Значения | Среднее значение | ||||
. .
Следовательно, уравнение регрессии имеет вид
.
Пусть х = 3, тогда , что соответствует исходным данным.
Выводы. 1 . Замечаем, как , так и , Это совпадение не случайное. Следовательно, значение корреляционного момента можно рассчитывать по любой из формул :
или .
2. Угол наклона линии регрессии равен .
3. Коэффициент k показывает, на сколько в среднем изменится у, при изменение х на одну единицу.
4. При , значение .
В рассмотренных примерах присутствовали две случайные величины х и у. Связь двух признаков принято называть парной. Если рассматривается более двух переменных, говорят о множественной связи и описывают ее уравнением множественной регрессии.
Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи одной из множества независимых переменных.