Множественный регрессионный анализ

Построить линейную регрессионную модель, описывающую зависимость оценочной цены складского помещения (y) от общей площади (x1) и времени эксплуатации помещения (x2).

1. Найти оценки параметров методом 1МНК.

2. Найти ковариационную матрицу.

3. Вычислить стандартные ошибки оценок параметров.

4. Найти точечный и интервальный прогноз математического ожидания и индивидуального значения зависимой переменной для прогнозного периода с вектором

5. Найти множественный коэффициент корреляции и коэффициент детерминации.

6. Проверить значимость эконометрической модели и коэффициента корреляции.

Уровень значимости принять .

Исходные данные приведены в таблице на рис.

 

Рис. Условие задачи

 

1. Нахождение оценок параметров модели методом 1МНК.

Линейная регрессионная модель имеет вид:

,

где u – случайный член.

В результате применения метода наименьших квадратов находятся оценки коэффициентов модели . По этим оценкам и по значениям объясняющих переменных строятся модельные значения объясняемой переменной:

,

где – оценки неизвестных параметров a0, a1, a2.

Оператор оценивания параметров модели по 1МНК имеет вид:

,

где .

Определим в MS Excel матрицы и на листе с именем «Решение1», как показано на рис.

 

Рис.

Последовательно высчитываем (рис.)

 

Рис.

 

В таблице приведены формулы реализованных на рис. расчетов

 

Таблица

Ячейка Формула
С34 =МУМНОЖ(B30:K32;B16:D25)
H34 =МУМНОЖ(B30:K32;F16:F25)
C38 =МОБР(C34:E36)
H38 =МУМНОЖ(C38:E40;H34:H36)

 

Определим несмещенную оценку дисперсии остатков (ячейка С54,рис.) – необъясненную дисперсию, отображающую меру разброса зависимой переменной вокруг линии регрессии:

.

 

Рис. Определение несмещенной оценки дисперсии остатков

 

Тогда ковариационная матрица вектора ошибок, рассчитываемая по формуле:

,

имеет вид, представленный на рис.

Рис. Ковариационная матрица вектора ошибок

 

Стандартные ошибки рассчитываются по формуле

.

Получаем:

=124117,442, =52,282371, =144,30774.

Сравним каждую ошибку с соответствующим числовым значением оценки параметра:

=79,25%, =39,20%, =36,3%.

Определение t-статистики по формуле

.

Если , то коэффициент считается статистически значимым.

Если , то коэффициент считается статистически незначимым. Это означает, что фактор линейно не связан с зависимой переменной , и его можно исключить из модели, и все расчеты, включая решение системы линейных уравнений, повторить снова.

Ячейка С12 (Лист1) содержит объясненную сумму квадратов, обусловленную регрессией:

.

Пусть - истинного значения объясняемой переменной от модельного для -го наблюдения. Тогда ячейка С13 (Лист1) содержит остаточную сумму квадратов, характеризующую отклонение от регрессии:

.

Таким образом, метод наименьших квадратов заключается в выборе такого набора коэффициентов среди всех возможных, при котором является минимальным.

Если все коэффициенты модели, кроме константы , равны нулю, то – среднему значению объясняемой переменной. Тогда общая сумма квадратов отклонений – ячейка С14(Лист1) равна

.

Отметим, что .

Тогда выборочное значение , имеющее распределение Фишера, в ячейке Е12 рассчитывается, как

или

,

применяемое для оценки значимости коэффициента детерминации .

Коэффициент детерминации в ячейке B5, вычисляется по формуле

.

Величина показывает, какая часть (доля) вариации объясняемой переменной обусловлена вариацией объясняющей переменной ( ). Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные. Если , то между и существует линейная функциональная зависимость. Если , то объясняемая переменная не зависит от данного набора объясняющих переменных.

Нормированный (скорректированный, адаптированный, поправленный) коэффициент детерминации:

в отличие от может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную, тогда как в таких случаях увеличивается.

На рис. приведен отчет регрессионного анализа в MS Excel с указанием связей между рассчитываемыми характеристиками.

Рис. Отчет регрессионного анализа в MS Excel

 

Обозначения, используемые в отчете:

df – число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант

F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

По эмпирическому значению статистики F проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.

Уравнение регрессии значимо на уровне , если , где - табличное значение F-критерия Фишера ().

P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии .

Для уровня значимости :

Если P-Значение , то коэффициент незначим, следовательно, гипотеза принимается.

Если P-Значение , то коэффициент значим, следовательно, гипотеза отвергается.

Нижние 95%, Верхние 95% – доверительный интервал для параметра .

Значения ячеек D12 и D13 могут также рассчитываться по формуле:

.

Графики кривых по наблюдаемым и расчетным значений объясняемой величины представлены на рис.

Рис. Графики кривых по наблюдаемым и расчетным
значений объясняемой величины

 

Проведем тест Дарбина-Уотсона для проверки наличия автокореляции первого порядка, то есть для проверки некоррелированности соседних величин .

Гипотеза (автокорреляция отсутствует).

Общая схема критерия Дарбина – Уотсона следующая:

1. По эмпирическим данным построить уравнение регрессии по МНК и определить значения отклонений для каждого наблюдения . (Для этого в диалоговом окне Регрессия установить флажок на функцию Остатки).

2. Рассчитать статистику DW:

.

3. По таблице критических точек распределения Дарбина –Уотсона для заданного уровня значимости , числа наблюдений и количества объясняющих переменных определить два значения: - нижняя граница и - верхняя граница.

4. Сделать выводы по правилу:

– существует положительная автокорреляция (), отвергается;

– вывод о наличии автокорреляции не определен;

– автокорреляция отсутствует, принимается;

– вывод о наличии автокорреляции не определен;

– существует отрицательная автокорреляция (), отвергается.

 

Задание к лабораторной работе 3. Постройте матрицу попарных коэффициентов корреляции, матрицу ковариации и регрессионную модель по данным в таблице, проведите полный регрессионный анализ (оцените адекватность регрессионной модели).

Таблица

  х1 х2 х3 х4 х5 х6 Y
Название Коэффициент расположения Площадь, кв.м. Номерной фонд (чел.) Техническое оснащение Приближенность к морскому побережью инфра-структура Цена, $/кв.м
"Ясная Поляна" (Гаспра) 0,00 176170,00 752,00 1,00 0,00 0,00 2800,00
"Украина" г. Ялта 1,00 83580,00 400,00 1,00 1,00 1,00 2000,00
"Мисхор" 2,00 32360,00 1114,00 1,00 1,00 1,00 2800,00
"Ливадия" 2,00 52500,00 346,00 1,00 1,00 1,00 2080,00
"Ай-Петри" 3,00 68700,00 762,00 0,00 0,00 1,00 2500,00