Корреляционно-регрессионный метод.

Функциональная зависимость двух величин означает, что каждому значению независимой величины соответствует строго определенное значение зависящей от нее величины. Функционально какая-либо величина может зависеть от нескольких аргументов. Функциональные зависимости чаще всего проявляются в физических процессах.

Частным случаем статистической зависимости является корреляционная зависимость. То есть корреляционная связь - связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Говоря математическим языком, корреляционной зависимостью считается такая статистическая зависимость, когда условное математическое ожидание (среднее наиболее вероятное значение) величины У функционально зависит от случайной величины X , то есть М(У) = φ(Х).

Данное уравнение называется моделью регрессии. Функция φ(Х) называется модельной функцией регрессии, а график этой функции - линией регрессии.

Для отыскания уравнений регрессии, вообще говоря, необходимо знать закон распределения двумерной случайной величины (У, Х).

На практике приходится иметь дело лишь с выборкой пар значений из ограниченного объема реализаций случайных величин. Поэтому на практике речь может идти не о точном, а о приближенном нахождении функции регрессии φ(Х), то есть об оценке этой функции.

Корреляционные зависимости изучаются методами корреляционного и peгрессионного анализа.

Основная задача корреляционного анализа сводится к выявлению наличия связи между случайными величинами и оценке ее тесноты.

Основная задача регрессионного анализа – нахождение статистической, или регрессионной зависимости между переменными и ее изучение.

С помощью корреляционного и регрессионного анализа можно рассчитать коэффициенты корреляции, которые оценивают силу тесноты связи между отдельными признаками (факторами, показателями), подобрать модель, которая отражает эту связь, и установить достоверность существования связи.

Процесс корреляционного и регрессионного анализа подразделяется на следующие этапы:

- предварительная обработка статистических данных и выбор фактор-признака;

- оценка тесноты связи между признаками;

- определение формы взаимосвязи между результирующим показателем и фактор-признаками;

- вычисление параметров статистической модели;

- проверка адекватности модели, надежности оценок параметров.

Но прежде всего необходимо провести логический анализсущности изучаемого явления и причинно-следственных связей. В итоге устанавливаются результативный факторный показатель У и факторы его изменения, характеризующиеся показателями (x1, х2…хn). Связь двух признаков ( у и х ) называют парной корреляцией. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По общему направлению связи могут быть прямые и обратные. При прямых связях с увеличением признака х увеличивается и признак у , при обратных - с увеличением признака х признак у уменьшается.

Если при увеличении значения фактор-признака среднее значение результирующего показателя также увеличивается, парная корреляция называется прямой или положительной; соответственно, если при увеличении значения фактор-признака среднее значение результирующего показателя уменьшается, то связь будет обратной или отрицательной.

При этом одному и тому же значению случайной величины X может соответствовать несколько значений случайной величины Y и наоборот.

Результаты наблюдений часто бывает удобно свести в так называемую корреляционную таблицу, также возможно графическое представление результатов - изображение пар (Х, У ) точками в декартовой системе координат. Полученный точечный график называется полем рассеивания или корреляционным полем. Например, зависимость урожайности от количества внесенных удобрений.

По виду эмпирической ломаной линии или путем анализа корреляционного поля можно определить форму плавной линии, определяющую основную тенденцию статистической зависимости. Если это прямая линия, тогда линейную модель можно записать так:

у = а0 +a1x + ε , так что определенному значению фактор-признака х соответствует значение у , которое состоит из двух слагаемых: а0 +a1x плюс некоторая добавка ε, благодаря которой любое индивидуальное значение у может отклоняться от линии регрессии.

Поскольку практически нельзя рассмотреть все возможные комбинации пар (х, у ), а, как уже говорилось, речь идет лишь о некоторой выборке, то практически мы не можем точно определить параметры а0 и a1, а можем лишь получить оценки этих параметров и само уравнение имеет вид: у = а0 + а1х, где у называется расчетным, выровненным или предсказанным значением у для данного х.

В этом уравнении неизвестными являются коэффициенты ао и а1. Прямых линий регрессии с уравнением у = а0 + а1х, аппроксимирующих точки корреляционного поля и отображающих графически ряд наблюдений (Хj, Yj), можно построить много. Коэффициент а0 равен длине отрезка, отсекаемого прямой на оси У, а коэффициент а1 характеризует наклон прямой к оси X.

Из всего этого семейства нужно выбрать одну, наилучшую, прямую. Критерием, по которому отыскивается наилучшая прямая, является сумма квадратов отклонений фактических yi (из ряда наблюдений) от значений yi,/ вычисленных по уравнению прямой:

.

Критерий выбора подходящей прямой можно записать так:

f(ao, a1) =

Коэффициент а1 называется коэффициентом регрессии и показывает, на сколько единиц в среднем изменяется результативный показатель у при увеличении фактор-признака х на одну единицу.

Другая важнейшая задача – измерение тесноты корреляционной зависимости. Коэффициент регрессии не может быть взят для оценки тесноты связи, так как он имеет следующие недостатки:

Коэффициент а1- это угловой коэффициент прямой линии регрессии. Этот коэффициент может быть одним и тем же для многих линий, относящихся к разным корреляционным полям, например, как на рис. 3.:

Рис.3. Коэффициент регрессии а1, одинаковый для разных случаев связи между х и у

Очевидно, что в одном случае точки корреляционного поля отстоят дальше от линии регрессии, чем в другом случае. Ясно, что во втором случае теснота связи между х и у больше.

Поэтому для определения степени тесноты зависимости служит выборочный коэффициент корреляции rxy.

Коэффициент корреляции для некоторой выборки значений х и у определяется по формуле:

Где = хi - , = yi - .

Коэффициент rxy совпадает по знаку с а1. Если rxy > 0, то корреляционная связь является прямой. Если rxy < 0 - обратной.

 

Свойства коэффициента корреляции.

1. Коэффициент корреляции удовлетворяет неравенству

-1 < rxy <1.

2. Если между X и У существует линейная функциональная связь, то | rxy | = l , и наоборот: если | rxy | = l, то между х и у существует линейная функциональная связь (см. рис. 4).

Рис. 4. Между х и у существует линейная функциональная связь, если | rxy | = l, и наоборот

3. При rxy = 0 между х и у отсутствует линейная корреляционная связь, то есть нет зависимости у от х. Но в этом случае зависимость может быть нелинейной, даже функциональной.

Коэффициенты корреляции и регрессии находятся в следующей зависимости:

rxy = , где Sх, Sу - среднеквадратические ошибки (или дисперсии).

Из формулы rxy = вытекает и следующая интерпретация коэффициента rxy: коэффициент парной корреляции показывает, на сколько стандартных единиц Sу изменяется случайная величина у , если величина х изменяется на одну свою стандартную единицу Sх.