Корреляционный и регрессионный анализ

Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками при парной связи или между результативным и несколькими факторными при множественной связи. Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака.

Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии. Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение, описывающее корреляционную зависимость между результативным признаком и одним или нескольким факторными.

В экономическом анализе для изучения связи между двумя признаками (парная регрессия) используются такие формулы:

а) линейная б) степенная

в) показательная г) гипербола

д) парабола 2-го порядка

В основе отыскания параметров корреляционных уравнений лежит метод наименьших квадратов.

Линейная парная регрессия имеет вид:

где — результативный признак;

— факторный;

— начало отсчета, начальный уровень ряда;

— коэффициент пропорциональности или коэффициент регрессии, который показывает как изменится «у» при изменении «х» на единицу.

При линейной связи множественное линейное уравнение имеет вид:

где расчетное значение регрессии, которое представляет собой оценку ожидаемого значения у при фиксированных значениях переменных коэффициенты регрессии, каждый из которых показывает, на сколько единиц изменится у с изменением соответствующего признака х на единицу при условии, что остальные признаки останутся на прежнем уровне.

Оценка параметров множественной регрессии вручную затруднительна, что приводит к потерям точности и может лишь удовлетворить любопытство. Получение же оценок параметров на ЭВМ в настоящее время не представляет большой проблемы. Гораздо важнее выяснить, насколько линейная форма связи соответствует реально существующей зависимости между у, с одной стороны, и множеством x— с другой.

Наиболее полно в статистике разработана методология парной корреляции, рассматривающей влияние вариации одного факторного признака на результатный.

Исследование парной корреляции осуществляется на основе корреляционного анализа, который предполагает последовательное решение ряда задач:

1) Выявление связи;

2) Описание выявленной связи;

3) Измерение тесноты связи;

4) Формулировка выводов о характере существующей связи.

Задача множественного корреляционно-регрессионного анализа в общем виде формулируется следующим образом: «Пусть некоторая статистическая совокупность, состоящая из n единиц наблюдения обладает определённым набором признаков, один из которых играет роль результативного y, а остальные – факторных (x1, x2, ..., xn). На основе наблюдаемых значений всех признаков требуется выявить и описать связь между ними в виде множественной корреляционной модели».

Решение задач множественной корреляции требует выполнения дополнительных этапов исследования:

• предварительный отбор факторов, включаемых в модель;

• уточнение модели на основе анализа корреляционной матрицы;

• оценка надёжности множественной корреляционной модели;

• интерпретация модели.

Этапы решения задач парной корреляции.

1. Задача выявления связи между факторным и результативным признаками может быть решена при помощи следующих приёмов:

- визуализации связи (построение и визуальный анализ корреляционного поля);

- использования результатов аналитической группировки и др.

Корреляционное поле представляет собой точечный график в системе координат {x,y}. Каждая точка соответствует единице совокупности. Положение точек на графике определяется величиной двух признаков – факторного и результативного.

Рисунок 3 - Корреляционное поле при наличии связи между признаками

Рисунок 4 - Корреляционное поле при отсутствии связи между признаками

При втором способе – использовании результатов аналитической группировки связь считается установленной, если группировка показывает изменение среднего значения результативного признака в группах при изменении факторного признака (основания группировки).

2. Описание выявленной связи при проведении корреляционного анализа проводится в двух формах – табличной и графической.

При табличном описании связи статистические единицы группируются по значению факторного признака (располагаются в порядке его возрастания или убывания).

Графическое описание связи заключается в построении линии эмпирической регрессии – ломаной линии, соединяющей на корреляционном поле точки, абсциссами которых являются значения факторного признака (индивидуальные значения или групповые значения), а ординатами – средние значения результативного признака.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если по своему виду она приближается к прямой линии, то можно предположить наличие прямолинейной связи между признаками.

3. Оценка тесноты связи предполагает определение меры соответствия вариации результативного признака от одного (для парных зависимостей) или нескольких (множественных) факторов. Через тесноту связи определяется, в какой степени влияют на результат учтённые и неучтённые факторы.

При проведении корреляционного анализа теснота связи измеряется с помощью интегральных показателей, построенных на правиле сложения дисперсии.

Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

Формулы расчета данного коэффициента:

Данный коэффициент оценки связи изменяется в пределах от - 1 до + 1. Если r > 0, то корреляция прямая, если r < 0, то обратная, а если r = 0, то связь отсутствует.

В зависимости от того, насколько коэффициент стремится к единице, различают следующие виды характеров связи

Таблица 29 -Количественные критерии оценки тесноты связи

Величина коэффициента корреляции Характер связи

До 0,3 Практически отсутствует

0,3 - 0,5 Слабая

0,5 – 0,7 Умеренная

0,7 - 1,0 Сильная

Коэффициент корреляции является мерой тесноты связи только для линейной формы связи, для нелинейной – используется индекс корреляции R.

Для измерения тесноты связи при множественной корреляционной зависимости, т. е. при исследовании трех и более признаков одновременно, вычисляется также множественный коэффициент корреляции.

Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле

где — парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен.

Чем ближе R к 1, тем более сильная связь между у и множеством х. Эта же оценка R используется и как мера точности аппроксимации фактических данных выровненным. Если R незначительно по величине (как правило, R < 0,3), то можно утверждать, что либо не все важнейшие факторы взаимосвязи учтены, либо выбрана неподходящая форма уравнения. В этом случае следует пересмотреть список переменных модели, а возможно, и сам ее вид.

Если индекс корреляции возвести в квадрат, то получим коэффициент коэффициент детерминации (D или R²). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторами.

В случае наличия линейной и нелинейной зависимостей между двумя признаками для измерения тесноты связи применяют так, называемое корреляционное отношение.

Эмпирическое корреляционное отношение рассчитывается по данным группировки, когда характеризует отклонения групповых средних результативного показателя от общей средней

где корреляционное отношение;

общая дисперсия;

средняя из частных (групповых) дисперсий;

межгрупповая дисперсия (дисперсия групповых средних).

Все эти дисперсии есть дисперсии результативного признака.

Корреляционное отношение изменяется в пределах от 0 до 1

4. Выводы по результатам корреляционного анализа включают в себя констатацию факта наличия связи, определение её направления, предварительную оценку формы связи по линии эмпирической регрессии и классификацию связи по степени её тесноты.

Часто для характеристики влияния изменения х на у используют так называемый коэффициент эластичности (Э), который показывает, на сколько процентов изменится у при изменении х на один процент. Например, для линейного уравнения коэффициент эластичности фактора х выглядит как:

Для парной степенной функции коэффициент эластичности х равен а_х.

Коэффициенты эластичности — это относительные величины. Их использование расширяет возможности сопоставления, экономической интерпретации результатов в дополнение к абсолютным величинам — коэффициентам регрессии.

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи. Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции

В первом приближении нужно, чтобы Значимость проверяется его сопоставлением с . При этом получают:

где — так называемое расчетное значение t – критерия.

Если больше теоретического (табличного) значения критерия Стьюдента для заданного уровня вероятности и степеней свободы, то можно утверждать, что значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t—критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие . В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F—критерия, вычисляя его расчетное значение:

где — число наблюдений;

— число параметров уравнения регрессии.

также должно быть больше при и степенях свободы.

В противном случае следует пересмотреть форму уравнения, перечень переменных и т. д.

Величина коэффициента корреляции	Характер связи
До 0,3	Практически отсутствует
0,3 - 0,5	Слабая
0,5 – 0,7	Умеренная
0,7 - 1,0	Сильная