Множественная регрессия

Порядок расчета числовых характеристик и их использования рассмотрим на примере.

Пример 3. 3. Имеется информация о стаже работы, производительности труда и месячной заработанной плате шести работников артели. Эти данные представлены в таблице в которой буквой y обозначен уровень заработанной платы (тыс. руб), - стаж работы, -производительность труда.

Эти данные отражены в таблице

№ пп y
Среднее 4,5
2,67 4,92 8,33

В общем виде

Р е ш е н и е. 1. Рассчитываем в каждом столбце средние значения и дисперсию по формуле для генеральной совокупности, т.е.

, .

Результаты расчетов отражены в таблице.

2. Определяем имеется ли связь между величинами и силу связи, используя коэффициент корреляции. Значения коэффициентов корреляции целесообразно отразить в таблице вида

  y
y      
     
     

В первом столбце должны стоять значения коэффициентов корреляции,, . Во втором столбце , ,и т.д.

Естественно, значения , =, =, =.

Для расчетов используем компьютер. В Excel введем таблицу значений y, и . Вызываем последовательно Сервис, Анализ данных, Корреляция, ОК. В появившемся подменю указываем: Входной интервал (диапазон данных); По столбцам; Выходной интервал (любую свободную ячейку); ОК. В результате имеем таблицу

 

 

  y
y - -
0,967 -
0,990 0,989

Из таблицы следует, что связь между значениями у и , а также между у и положительная и близка к линейной. Связь между факторами итак же близка к линейной и характеризуется .

Уравнение регрессии в этом случае имеет вид

.

Для определения значений коэффициентов используем компьютер. Для этого в Excel вызываем последовательно Сервис, Анализ данных, Регрессия, ОК. В появившемся подменю указываем: Входной интервал у (диапазон значений у); Входной интервал х (указываем общий диапазон значений и); Выходной интервал (указываем любую свободную ячейку); напротив График подбора ставим отметку V; ОК.

В результате отражаются графики и . Из всех приведенных данных выбираем: у пересечения –7,23, что соответствует значению ; переменная –0,45, что соответствует значению ; переменная 0,9, что соответствует значению . Следовательно, уравнение регрессии вид

.

Проверяем: При , должно соблюдаться условие , т.е. . В таблице исходных данных (расхождение за счет округления значений коэффициентов).

Напомним, что в уравнении регрессии коэффициенты и показывают, как изменяется в среднем у , при изменении значений илина единицу. Например, при неизменном стаже работы (, изменение производительности труда () на одну единицу, ведет к изменению заработанной платы (в том же направлении) на 900 рублей.

Оценим, все ли факторы, влияющие на уровень заработанной платы, мы учли. Для этого необходимо рассчитать совокупный (общий) коэффициент корреляции, по формуле

, где .

Вычисляем

, .

.

Вывод. Зависимость практически линейная. Чтобы ответить на вопрос насколько уровень заработанной платы зависит только от учтенных факторов, необходимо вычислить так называемый коэффициент детерминации . Разность между единицей и значением R, показывает влияние неучтенных факторов. В нашем случае . Из этого следует, что в данной артели никаких иных факторов не учитывают при назначении заработанной платы.

В рассмотренных примерах зависимость между величинами определяли, используя коэффициенты корреляции. Такой метод оценки связи принято называть корреляционным (параметрическим) методом. Параметрический метод основан на использовании оценок нормального распределения и применим в том случае, если исследуемые параметры распределены по нормальному закону.

Существует и другой метод, который называют «непараметрическим методом». Непараметрический метод не накладывают ограничений на закон распределения изучаемых величин и, кроме того, его применение предполагает более простые вычисления.