Корреляционно-регрессионный анализ

 
 

Для изучения взаимодействия признаков используют исследования по типам связей между различными явлениями и их признаками. Различают два типа связей

Корреляционно-регрессионный анализ (КРА) основывается на формах проявления взаимосвязей, используя статистическую связь, а точнее, частный случай стохастической связи – корреляционную.

Корреляционной связью называется такая связь между явлениями и их признаками, когда разным значениям переменных соответствуют различные условные средние значения другой переменной. Для изучения корреляционных связей используют уравнение регрессии, которое представляет собой математическое выражение связи признаков , xi – значения n факторов, базирующееся на изменении условной средней величины результативного признака () с изменением факторов.

Корреляционный анализ: измеряет тесноту известной связи между факторами и результатом, оценивает факторы, оказывающие наибольшее влияние.

Регрессионный анализ: осуществляет выбор модели связи, определяет расчетные значения функции, устанавливает степень влияния признаков.

Отсюда, корреляционно -регрессионный анализ осуществляет построение аналитического выражения зависимости признаков, оценивает это аналитическое выражение, оценивает существующие между факторами

и результатом связи, рассчитывает теоретические значения функции.

Классификация корреляционных связей может быть представлена следующим образом:

I. Направление действия прямая связь (большему значению аргумента соответствует большее значение функции); обратная связь (большему значению аргумента соответствует меньшее значение функции);

II. Аналитическое выражение прямолинейная связь (например, описание зависимости от одного фактора с помощью уравнения прямой линии ) и криволинейная связь (другие математические функции для описания зависимости фактора и результата, например, для одного фактора – параболическая , гиперболическая , степенная и т.д.);

III. Количество факторов – однофакторная (парная модель, зависимость от одного фактора) и многофакторная (многомерная модель, зависимость от двух и более факторов)

Уравнение зависимости, выраженное функцией (линейной или нелинейной) и описывающее зависимость условной средней результативного признака от одного факторного - уравнение парной корреляции, а описывающее зависимость результативного от нескольких факторных признаков - уравнение множественной корреляции.

Простейшим уравнением парной корреляции является линейное уравнение: - среднее значение результативного признака, b- вариация результативного признака на единицу факторного, a- теоретическое значение результативного признака при значении факторного, равное 0 (x=0), что на практике чаще всего не имеет никакого экономического смысла.

Для вычисления параметров a и b решается система уравнений:

Можно применять для расчета параметров уравнения методы линейной алгебры (метод Крамера или метод Гаусса), опуская преобразования, получаем формулу для расчета: , тогда на основе свойства средней величины и представленного уравнения . Если значение b положительно, то имеет место прямая связь (с увеличением одной переменной вторая увеличивается), и наоборот, если значение b отрицательно, то связь -обратная (с уменьшением одной переменной вторая увеличивается).

Оценка полученного уравнения может быть выполнена несколькими способами, так для линейного уравнения регрессии существует два основных приема: например, проверка равенства эмпирического коэффициента детерминации и линейного коэффициента корреляции или расчет показателей и () и проверка -критерия (табличные значения t -критерия значимости в зависимости от числа степеней свободы и допустимого уровня значимости a - вероятность получения ошибки). Причем обязательно выполнение следующего условия: >t>.

При линейной корреляционной связи применяют показатель силы связи между изучаемыми признаками - коэффициент корреляции, величина коэффициента корреляции колеблется в пределах: : .

Шкала Чеддока для определения силы связи в зависимости от коэффициента корреляции

Величина Характер связи
До 0,3 Практически отсутствует
0,3-0,5 Заметная
0,5-0,7 Умеренная
0,7-0,9 Сильная
0,9-0,999 Очень сильная

 

Для коэффициента корреляции также проверяется существенность, которая определяется на основе расчета t -критерия значимости для tr (, причем tr>t). Коэффициент детерминации (), выраженный в процентах, показывает тесноту связи: какая часть результативного признака обусловлена изменениями факторного. Проверка адекватности построенной модели парной корреляции может быть выполнена сравнением коэффициента корреляции и эмпирического коэффициента детерминации h, причем обязательно рассмотрение автокорреляции (взаимного влияния признаков друг на друга).

Рассмотрим пример: Установить зависимость затрат на ремонт и возраста станка, проверить адекватность аналитического выражения корреляционной связи, оценить направление, силу и тесноту связи.

 

Номер станка Возраст станка, лет Затраты на ремонт, тыс. руб.
1,5
2,0
3,6
4,0
4,7
4,8
5,1
8 6,6

Графическое изображение зависимости представленных в таблице признаков позволяет предположить наличие линейной связи между ними (). По тому, что график является восходящим, можно предположить направление связи, как прямое, что обусловлено и экономическим смыслом представленных показателей.

Для расчета параметров в уравнении построим расчетную таблицу, учитывая, что представленные данные несгруппированы (для расчета средних значений фактора и результата используется средняя арифметическая простая).

 

Номер станка Возраст станка, лет Затраты на ремонт, тыс. руб.
1,5 12,25 8,88 6,44 1,73 0,05
2,0 6,25 5,09 4,15 2,39 0,15
3,6 2,25 0,66 0,19 3,05 0,31
4,0 0,25 0,02 0,00 3,71 0,09
4,7 0,25 0,33 0,44 4,37 0,11
4,8 2,25 1,14 0,58 5,03 0,05
5,1 6,25 2,66 1,13 5,69 0,35
6,6 12,25 8,97 6,57 6,35 0,06
Итого 60,00 32,30 42,00 27,75 19,50 32,30 1,16

.

Для расчета параметров линейного уравнения достроим соответствующие графы, =0,66, =-0,92, получили уравнение парной линейной корреляции . Для оценки адекватности (соответствия) построенной модели необходимо рассчитать коэффициент корреляции и детерминации, в расчете которых используются теоретические значения условной средней, получаемые при подстановке в уравнение линейной корреляции значений результата значений.

Рассчитаем коэффициент корреляции =0,96969 и

коэффициент детерминации =0,96969, равенство rxy и h позволяет сделать заключение об адекватности построенной модели и связи между признаками, из экономического смысла которых можно сделать заключение об отсутствии автокорреляции (затраты на ремонт не влияют на возраст станка). Значение коэффициента корреляции 0,96969 говорит об очень сильной связи между возрастом станка и затратами на его ремонт, причем =94%, т.е. 94% затрат на ремонт зависит от возраста станка.

На практике изучаемый признак подвержен влиянию более, чем одного фактора, но часто существенным признаком является один, поэтому наибольшее распространение в построении моделей получила однофакторная модель.