Корреляционный и регрессионный анализ

Основным методом изучения статистической взаимосвязи является статистическое моделирование связи на основе корреляционного и регрессионного анализа.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками при парной связи или между результативным и несколькими факторными при множественной связи. Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака.

Регрессионный анализ заключается в определении аналитического выражения связи в виде уравнения регрессии. Регрессией называется зависимость среднего значения случайной величины результативного признака от величины факторного, а уравнением регрессии – уравнение, описывающее корреляционную зависимость между результативным признаком и одним или нескольким факторными.

В экономическом анализе для изучения связи между двумя признаками (парная регрессия) используются такие формулы:

а) линейная б) степенная

в) показательная г) гипербола

д) парабола 2-го порядка

В основе отыскания параметров корреляционных уравнений лежит метод наименьших квадратов.

Линейная парная регрессия имеет вид:

где результативный признак;

факторный;

— начало отсчета, начальный уровень ряда;

— коэффициент пропорциональности или коэффициент регрессии, который показывает как изменится «у» при изменении «х» на единицу.

При линейной связи множественное линейное уравнение имеет вид:

где расчетное значение регрессии, которое представляет собой оценку ожидаемого значения у при фиксированных значе­ниях переменных коэффициенты рег­рессии, каждый из которых показывает, на сколько единиц изме­нится у с изменением соответствующего признака х на единицу при условии, что остальные признаки останутся на прежнем уров­не.

Оценка параметров множественной регрессии вручную затруд­нительна, что приводит к потерям точности и может лишь удовле­творить любопытство. Получение же оценок параметров на ЭВМ в настоящее время не представляет большой проблемы. Гораздо важнее выяснить, насколько линейная форма связи соответствует реально существующей зависимости между у, с одной стороны, и множеством x— с другой.

 

Наиболее полно в статистике разработана методология парной корреляции, рассматривающей влияние вариации одного факторного признака на результатный.

Исследование парной корреляции осуществляется на основе корреляционного анализа, который предполагает последовательное решение ряда задач:

1) Выявление связи;

2) Описание выявленной связи;

3) Измерение тесноты связи;

4) Формулировка выводов о характере существующей связи.

 

Задача множественного корреляционно-регрессионного анализа в общем виде формулируется следующим образом: «Пусть некоторая статистическая совокупность, состоящая из n единиц наблюдения обладает определённым набором признаков, один из которых играет роль результативного y, а остальные – факторных (x1, x2, ..., xn). На основе наблюдаемых значений всех признаков требуется выявить и описать связь между ними в виде множественной корреляционной модели».

Решение задач множественной корреляции требует выполнения дополнительных этапов исследования:

• предварительный отбор факторов, включаемых в модель;

• уточнение модели на основе анализа корреляционной матрицы;

• оценка надёжности множественной корреляционной модели;

• интерпретация модели.

 

Этапы решения задач парной корреляции.

1. Задача выявления связи между факторным и результативным признаками может быть решена при помощи следующих приёмов:

- визуализации связи (построение и визуальный анализ корреляционного поля);

- использования результатов аналитической группировки и др.

Корреляционное поле представляет собой точечный график в системе координат {x,y}. Каждая точка соответствует единице совокупности. Положение точек на графике определяется величиной двух признаков – факторного и результативного.

y

x

 

Рисунок 3 - Корреляционное поле при наличии связи между признаками

Рисунок 4 - Корреляционное поле при отсутствии связи между признаками

 

При втором способе – использовании результатов аналитической группировки связь считается установленной, если группировка показывает изменение среднего значения результативного признака в группах при изменении факторного признака (основания группировки).

 

2. Описание выявленной связи при проведении корреляционного анализа проводится в двух формах – табличной и графической.

При табличном описании связи статистические единицы группируются по значению факторного признака (располагаются в порядке его возрастания или убывания).

Графическое описание связи заключается в построении линии эмпирической регрессии – ломаной линии, соединяющей на корреляционном поле точки, абсциссами которых являются значения факторного признака (индивидуальные значения или групповые значения), а ординатами – средние значения результативного признака.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если по своему виду она приближается к прямой линии, то можно предположить наличие прямолинейной связи между признаками.

 

3. Оценка тесноты связи предполагает определение меры соответствия вариации результативного признака от одного (для парных зависимостей) или нескольких (множественных) факторов. Через тесноту связи определяется, в какой степени влияют на результат учтённые и неучтённые факторы.

При проведении корреляционного анализа теснота связи измеряется с помощью интегральных показателей, построенных на правиле сложения дисперсии.

Линейный коэффици­ент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

 

Формулы расчета данного коэффициента:

 

Данный коэффициент оценки связи изменяется в пределах от - 1 до + 1. Если r > 0, то корреляция прямая, если r < 0, то обратная, а если r = 0, то связь отсутствует.

В зависимости от того, насколько коэффициент стремится к единице, различают следующие виды характеров связи

Таблица 29 -Количественные критерии оценки тесноты связи

 

Величина коэффициента корреляции Характер связи
До 0,3 Практически отсутствует
0,3 - 0,5 Слабая
0,5 – 0,7 Умеренная
0,7 - 1,0 Сильная

 

Коэффициент корреляции является мерой тесноты связи только для линейной формы связи, для нелинейной – используется индекс корреляции R.

 

Для измерения тесноты связи при множественной корреляци­онной зависимости, т. е. при исследовании трех и более признаков одновременно, вычисляется также множественный коэффициент корреляции.

Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле

 

где — парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется в пре­делах от 0 до 1 и по определению положителен.

Чем ближе R к 1, тем более сильная связь между у и множест­вом х. Эта же оценка R используется и как мера точности аппрок­симации фактических данных выровненным. Если R незначитель­но по величине (как правило, R < 0,3), то можно утверждать, что либо не все важнейшие факторы взаимосвязи учтены, либо вы­брана неподходящая форма уравнения. В этом случае следует пе­ресмотреть список переменных модели, а возможно, и сам ее вид.

 

Если индекс корреляции возвести в квадрат, то получим коэффициент коэффициент детерминации (D или R2). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторами.

 

В случае наличия линейной и нелинейной зависимостей между двумя признаками для измерения тесноты связи применяют так, называемое корреляционное отношение.

Эмпирическое корреляционное отношение рассчитывается по данным группировки, когда характеризует отклонения групповых средних результативного показателя от общей средней

где корреляционное отношение;

общая дисперсия;

средняя из частных (групповых) дисперсий;

межгрупповая дисперсия (дисперсия групповых сред­них).

Все эти дисперсии есть дисперсии результативного признака.

Корреляционное отношение изменяется в пределах от 0 до 1

 

4. Выводы по результатам корреляционного анализа включают в себя констатацию факта наличия связи, определение её направления, предварительную оценку формы связи по линии эмпирической регрессии и классификацию связи по степени её тесноты.

 

Часто для характеристики влияния изменения х на у ис­пользуют так называемый коэффициент эластичности (Э), кото­рый показывает, на сколько процентов изменится у при измене­нии х на один процент. Например, для линейного уравнения ко­эффициент эластичности фактора х выглядит как:

Для парной степенной функции коэффициент эла­стичности х равен ах.

Коэффициенты эластичности — это относитель­ные величины. Их использование расширяет возможности сопос­тавления, экономической интерпретации результатов в дополне­ние к абсолютным величинам — коэффициентам регрессии.

 

Получив оценки корреляции и регрессии, необходимо проверить их на соответст­вие истинным параметрам взаимосвязи. Существующие програм­мы для ЭВМ включают, как правило, несколько наиболее распро­страненных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффи­циента корреляции

 

В первом приближении нужно, чтобы Значи­мость проверяется его сопоставлением с . При этом полу­чают:

где — так называемое расчетное значение t – критерия.

Если больше теоретического (табличного) значения кри­терия Стьюдента для заданного уровня вероятности и степеней свободы, то можно утверждать, что значимо.

Подобным же образом на основе соответствующих формул рас­считывают стандартные ошибки параметров уравнения регрессии, а затем и t—критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие . В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характери­стику значимости всего уравнения регрессии получают с помощью F—критерия, вычисляя его расчетное значение:

 

где — число наблюдений;

— число параметров уравнения регрессии.

также должно быть больше при и степенях свободы.

В противном случае следует пере­смотреть форму уравнения, перечень переменных и т. д.