Устранение межфакторной корреляции

Существует ряд подходов преодоления сильной межфакторной корреляции:

1. Исключение из модели одного или нескольких факторов.

2. Преобразование факторов, при котором уменьшается корреляция между ними.

3. Переход от исходных переменных к их линейным комбинациям (метод главных компонент).

4. Переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействий.

Так, если у = f(x₁, x₂, x₃), то возможно построение следующего совмещенного уравнения:

(59)

Рассматриваемое уравнение включает взаимодействие первого порядка (2-х факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость (например b₁₂₃x₁x₂x₃ – взаимодействие второго порядка). Как правило, взаимодействие третьего и более порядков оказываются статистически незначимыми. Иногда и взаимодействия первого порядка могут оказаться несущественными. Так, если значимо только взаимодействие факторов x₁и x₃ , то совмещенное уравнение будет иметь вид:

(60)

Взаимодействие факторов x₁и x₃ означает, что на разных уровнях фактора х₃ влияние фактора х₁ на у будет неодинаково.

С ростом x₁результативный признак у

возрастает при х₃= В₁;

С ростом x₁результативный признак у снижается при х₃= В₁.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность комбинаций разных видов удобрений (комбинаций азота и фосфора).

5. Переход к уравнениям приведенной формы. С этой целью в уравнении рег-

рессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида:

для которой факторы x₁и x₂ обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное 2-х факторное уравнение регрессии совместно с другим уравнением, в котором фактор (например, x₂) рассматривается как зависимая переменная. Предположим, что

Подставляя это уравнение в искомое вместо x₂, получим :

или (61)

Если то разделив обе части равенства (61) на получаем уравнение вида

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде

(62)

К нему для оценки параметров может быть применен МНК.

На основании вышеизложенного можно сказать, что построение уравнения множественной регрессии может осуществляться по разным методам.

Методы построения уравнения множественной регрессии:

o Метод исключения;

o Метод включения;

o Шаговый регрессионный анализ (исключение ранее введенного фактора)

При отборе факторов необходимо пользоваться следующим правилом: число включенных факторов обычно в 6 – 7 раз меньше объема совокупности, по которой строится регрессия. Если это соответствие нарушено, то число степеней свободы остаточной дисперсии очень мало и это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми.

Выбор формы уравнения регрессии

Возможны разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В линейной множественной регрессии

(63)

Параметры при х называются коэффициентами «чистой регрессии». Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Пример: предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс. руб.;

х₁ – месячный доход на одного члена семьи, тыс. руб.

х₂– размер семьи, чел.

Анализ данного уравнения позволяет сделать выводы – сростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи.

Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб.

В степенной функции

(64)

коэффициенты b_j являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности других факторов.

Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение

где у – количество спрашиваемого мяса, кг;

х₁ – цена, руб.; х₂ – доход, руб.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1,11%.

В производственных функциях вида

(65)

где Р – количество продукта, изготавливаемого с помощью m производственных факторов (F₁, F₂. … F_m);

b_j – параметр_,являющийся эластичностью продукции по отношению к количеству соответствующих производственных факторов.

Экономический смысл имеют не только коэффициенты b_j каждого фактора, но и их сумма, т. е. сумма эластичностей:

B = b₁ + b₂ + …+ b_m. (66)

Эта величина фиксирует обобщенную характеристику производства. Например, производственная функция имеет вид:

где Р – выпуск продукции; F₁, - стоимость основных производственных фондов;

F₂. – отработано человеко – дней; F₃. – затраты на производство.

Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F₁, на 1% при неизменных F₂. и F₃.; 0,2% с ростом F₂, на 1% при неизменных F₁. и F₃. и 0,5% с ростом F₃, на 1% при неизменных F₂. и F₁.

Для данного уравнения B = b₁ + b₂ + b₃ = 1. Следовательно, в целом с ростом каждого фактора на 1% коэффициент эластичности выпуска составляет !%, т. е. выпуск продукции увеличивается на 1%, что в экономике соответствует постоянной отдаче на масштаб.

При практических расчетах не всегда Она может быть меньше или больше 1.

Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии:

v Парабола:

v Экспонента:

v Гипербола: ,

которая используется при обратных связях признаков.

v Степенная

Можно использовать и другие функции, приводимые к линейному виду.

Но всегда необходимо помнить, что во множественной регрессии с большим количеством параметров необходимо большое число наблюдений, иначе они окажутся статистически незначимыми.

ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). Возможны два способа расчета параметров многофакторной модели:

- методом определителей;

- методом стандартизации переменных (с использованием парных коэффициентов корреляции).

В первом случае для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

, (67)

………………………………………………………

Для ее решения может быть применен метод определителей:

(68)

(69)

где - определитель системы (67);

…………………………………

частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Во втором методе уравнение множественной регрессии преобразуется в уравнение регрессии в стандартизованном масштабе (виде):

, (70)

где стандартизованные переменные, для которых среднее значение равно 0, а среднее квадратическое отклонение равно 1; стандартизованные коэффициенты регрессии.

К уравнению множественной регрессии в стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии определяются из следующей системы уравнений:

, (71)

…………………………………………………….

Например, для уравнения искомое уравнение в стандартизованном масштабе будет иметь вид:

Система уравнений в этом случае следующая:

(72)

Откуда

(73)

Для трехфакторного уравнения регрессия система уравнений имеет вид:

(74)

Из этой системы уравнений, стандартизованные коэффициенты будут равны:

(75)

Связь коэффициентов множественной регрессии b _i со стандартизованными коэффициентами описывается соотношением

(76)

Параметр а определяется как . (77)

Это позволяет от уравнения регрессии в стандартизованном масштабе

переходить к уравнению регрессии в натуральном масштабе переменных:

При нелинейной зависимости признаков, приводимой к линейному виду, параметры множественной регрессии также определяются МНК с той лишь разницей, что он используется не к исходным переменным, а к преобразованным данным. Например, для степенной функции

преобразование в линейный вид заключается, как и в парной регрессии, в логарифмировании уравнения по десятичному или натуральному основанию. Линейный вид степенной функции: где переменные выражены в логарифмах.

Далее обработка МНК та же, что и описана выше: строится система нормальных уравнений и определяются параметры lna, b₁, b₂, …, b _p. Потенцируя значение lna, найдем параметр а и соответственно общий вид степенной функции.

Для другого вида моделей, например, полиномиальных, гиперболических и т. п. линеаризация исходного уравнения проводится, как и в парной регрессии, путем замены нелинейных переменных на линейные.

ПАРАБОЛА

Как уже отмечалось, парабола относится к уравнениям регрессии, нелинейным по переменным и имеет вид . Для перевода его к линейному виду производится замена: х = х₁; х² = х₂. Получается двухфакторное уравнение: .

Искомое уравнение в стандартизованном масштабе будет иметь вид:

Используя выражения (72) и (73), найдем стандартизованные коэффициенты регрессии, а затем коэффициенты чистой регрессии по формулам:

и.

Лекция 8