Регрессионный анализ

Одно из главных назначений -построение модели, позволяющей прогнозировать значения зависимой переменной.

Рассмотрим наиболее простую из них -• линейную модель, описываемую уравнением

Y=a+b_1*x₁+b_2*x₂+…+b_k*x_k+e

где Y - зависимая переменная;

x₁,x₂,…x_k - независимые переменные;

b₁,b₂,…b_k -угловые коэффициенты;

k - количество независимых переменных;

а - свободный член уравнения (значение, которое принимает зависимая переменная при равенстве нулю всех независимых переменных);

е - ошибка прогноза.

Обучающая выборка- исходные данные для регрессионного анализа (значения независимых переменных и соответствующие им значения зависимой переменной для каждого наблюдения).

Следует различать теоретические и наблюдаемые значения зависимой переменной: - наблюдаемые значения обучающей выборки используются для построения модели, т.е. для подбора коэффициентов b₁,b₂,…b_k и а.

(коэффициенты подбираются так, чтобы модель как можно лучше описывала закономерность, скрытую в обучающей выборке - чтобы теоретические значения зависимой переменной как можно меньше отличались от наблюдаемых).

Обычно уравнение записывают без указания ошибки е, ее наличие подразумевается. Однако величина ошибки является важной характеристикой построенной модели.

Качество регрессионной модели можно оценить:

- по множественному коэффициенту детерминации(показывает долю дисперсии зависимой переменной, объясняемой моделью);

- уровню значимости модели(позволяет судить о том, является ли эта доля статистически достоверной).

Статистические пакеты рассчитывают уровень значимости каждой независимой переменной (если уровень значимости меньше критических значений, то вклад данной переменной можно считать статистически значимым).

В регрессионном анализе, по возможности, необходимо использовать независимые переменные, которые слабо связаны между собой.

Однако если независимые переменные сильно коррелируют между собой, то регрессионный анализ не может отделить вклад одной переменной от вклада другой. Тогда в результате анализа вклады всех переменных оказываются незначимыми несмотря на высокую статистическую значимость всей модели в целом.

О наличии сильной корреляции между независимыми переменными может свидетельствовать, например, большая разница между их парными и частными корреляциями с зависимой переменной.