Понятие о корреляционной связи и условия применения корреляционно-регрессионного анализа (КРА).

Принятие управленческих решений в экономике и социальной сфере невозможно без оценки характера, направления, силы и формы связи между различными явлениями. В статистике различают два типа связей между явлениями и их признаками: 1) жестко - детерминированную и 2) стохастическую. При первом типе связей значению одной переменной (х) соответствует одно или несколько точно заданных значений другой переменной (у). В реальной жизни таких связей нет, это абстракция, упрощающая реальность.

Стохастическая связь является всеобщим видом взаимосвязей между явлениями. Переменная y находится в стохастической связи с х, если при изменении значения х у сохраняет характер случайной переменной, способной принимать различные значения с определенной степенью вероятности. Все связи, которые могут быть измерены количественно, подходят под определение стохастических. Жестко – детерминированная связь является лишь крайним проявлением всеобщей стохастической связи.

Корреляционная связь является частным случаем стохастической связи; стоящим в том, что с изменением значения признака х закономерным образом изменится среднее значение признака у, в то время как в каждом отдельном случае значение признака у может принимать множество различных значений.

Связь является стохастической, но не корреляционной, если с изменением признака х среднее значение признака у не изменяется закономерным образом, но закономерно изменяется какая-то другая стохастическая характеристика (показатели вариации, асимметрии и т.д.).

Различают три пути возникновения корреляционных связей:

1) когда один из признаков (х) является причиной вариации другого признака (у). Первый из признаков называется независимой переменной (фактором), а второй – зависимым (результативным показателем);

2) когда оба фактора являются следствием общей причины. Происходит параллельное изменение значений признаков, но ни один из них не является причиной вариации другого. Такие связи называют связями соответствия;

3) между признаками, каждый из которых является и причиной, и следствием, т.е. каждый признак может выступать и в роли независимой переменной х, и в качестве зависимой переменной у.

Термин «корреляция» заимствован из естествознания и означает – соответствие, соотношение. Основоположниками теории корреляции являются Ф. Гальтон и К.Пирсон.

Применение корреляционно-регрессионного анализа (КРА) связано с рядом ограничений, относящихся как к самой совокупности, так и к различным характеристикам факторов, включаемых в модель КРА,

Рассмотрим основные условия применения КРА,

1. Наличие исходной информации по достаточно большой совокупности явлений. Анализ отдельных явлений не позволяет раскрыть статистические закономерности, которые проявляются лишь при наличии множества явлений, когда закон больших чисел обеспечивает надежное взаимопогашение действия случайных факторов. Поэтому количество единиц случайной совокупности должно быть максимально большим.

2. Наличие стохастической связи. Считается, что если связь жестко-детерминированная, то ее изменение следует осуществлять с помощью индексного метода. Однако теоретически возможно применение КРА и в случае жестко-детерминированной связи, что позволит более полно измерить роль каждого фактора в формировании значения результативного показателя.

3. Наличие нормального распределения единиц совокупности по результативному и факторным признакам. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции. На практике нормальное распределение значений признаков в экономической и социальной жизни встречается довольно редко. Поэтому для оценки соответствия фактического распределения нормальному применяют показатели асимметрии и эксцесса.

Показатели асимметрии Аs характеризуют отклонение фактического распределения от нормального вправо или влево:

где - среднее значение признака;

М0 – показатель моды;

σ – среднеквадратическое отклонение.

Если Аs > 0, то кривая фактического распределения смещена вправо от кривой нормального распределения и говорят о правосторонней асимметрии. При Аs < 0 имеет место отрицательная, левосторонняя асимметрия.

Оценка существенности Аs дается с помощью ее средней квадратической ошибки σAS:

где n – число единиц изучаемой совокупности.

На основе исчисленных величин определяют значение t – критерия:

Если значение t < 3, то асимметрия считается несущественной. Для оценки сходства вершин кривых фактического и нормального распределения используют показатель экцесса Ех:

где μ4 – центральный момент четвертого порядка.

Средняя квадратическая ошибка Ех рассчитывается так

Аналогично с предыдущими показателями исчисляют t – критерий:

При t < 3 говорят о сходстве вершин фактического и нормального распределения.

4. Изучаемая совокупность должна быть однородной. При этом различают понятия качественной и количественной однородности. Под качественной однородностью понимается подчиненность единой закономерности развития всех единиц изучаемой совокупности. Степень количественной однородности можно оценить с помощью значения коэффициента вариации (υ). При υ ≤ 30 % говорят об однородности совокупности; если 30% < υ ≤ 60-80 %, то вариация характеризуется как средняя; при υ > 60 - 80 % говорят о сильной вариации, средняя величина в такой совокупности является малотипичной, и применение в подобном случаев методов КРА ограничено. Однако оценка степени интенсивности вариации для каждого отдельного признака должна быть индивидуальной. Например, для совокупности сельскохозяйственных организаций вариация урожайности в одном и том же регионе оценивается как слабая при υ ≤ 10 %; а вариация роста в совокупности взрослых мужчин при υ > 7 % оценивается как сильная.

5. Требования к факторам, включаемым в модель КРА:

а) факторы должны характеризовать одну и ту же единицу совокупности. Например, среди факторов, определяющих среднюю выработку на одного рабочего, выделили: средний тарифный разряд рабочего, уровень механизации труда и т.д. Кроме того, включили в модель факторы: стоимость основных средств предприятия, размер семьи рабочего и т.д. Последние факторы относятся к иным объектам и не должны включаться в модель;

б) факторы не должны быть частью признака – результата, они не должны повторять его. Нежелательно, например, рассматривать в качестве фактора среднемесячной выработки среднюю дневную выработку, так как фактор и результат находятся в жестко-детерминированной зависимости;

в) факторы не должны быть тесно взаимосвязанными, желательно чтобы они были максимально независимыми. Присутствие в модели коллинеарных факторов искажает характеристики связи, делает ненадежными параметры уравнения регрессии;

г) число факторов, включаемых в модель, должно быть соизмеримо с количеством изучаемых объектов. Число факторов должно быть приблизительно в 5 – 6 раз меньше числа единиц наблюдения.