Расчет коэффициентов в множественной линейной регрессии.

Представим данные наблюдений и соответствующие коэффициенты в матричной форме.

Y=(y1,y2,…yn)т B=(b0,b1,…bm)т e=(e1,e2…en)т

 

 

 
 

 

 


Решение системы уравнений в матричном виде, будет иметь следующий вид:

В = (XтX)­-1XтY.

Здесь (XтX)­-1— матрица, обратная к XтX.

Полученные общие соотношения справедливы для уравнений регрессии с произвольным количеством m объясняющих переменных.

 

 

Пример.

Имеются следующие данные (условные) о сменной добыче угля на одного рабочего Y(т), мощности пласта X1(м) и уровне механизации работ X2(%), характеризующие процесс добычи угля в 10 шахтах.

Таблица 1

i xi1 xi2 yi i xi1 xi2 yi

Предполагая, что между переменными Y, X1,X2 существует линейная корреляционная зависимость, найти ее уравнение регрессии.

Решение. Обозначим Y=(5,10,10,….8)Т,

Теперь XтX=

XтY=

 

Матрицу A-1=(X'X)-l определим по формуле A-1=(A*)т /|A|

 

Получим

,

 

Окончательно получаем

 

Уравнение множественной регрессии имеет вид: у=—3,54+0,854x1+0,367x2. Оно показывает, что при увеличении только мощности пласта Х1 (при неизменном Х2) на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ Х2 (при неизменной Х1) — в среднем на 0,367 т.

3. Дисперсии и стандартные ошибки коэффициентов.

Наиболее удобно формулы расчета данных характеристик приводить в матричной форме.

Как показано выше, эмпирические коэффициенты множественной линейной регрессии определяются по формуле:

В = (ХТ X)-1XTY.

Подставляя теоретические значения Y = Хb+e в данное соотношение, имеем:

В=(ХТ X)-1XT(Хb+e)=(ХТ X)-1XTХb+(ХТ X)-1XTХe=b+(ХТ X)-1XTХe.

имеем: В-b=(ХТ X)-1XTХe - вектор отклонений

Построим дисперсионно-ковариационную матрицу

D(ei)=K(b)=M((В-b)(В-b)т)=M((ХТ X)-1XTХe((ХТ X)-1XTХe)Т)=М((ХТ X)-1XTeeТX((ХТ X)-1)Т)

В силу того что Xij, не являются случайными величинами, имеем:

K(β)=σ2((XTX)-1)TÞD(ei)=σ2zjj

где zjj– диагональный элемент матрицы Z-1=(ХТ X)-1.

Поскольку истинное значение дисперсии s2 по выборке определить невозможно, оно заменяется соответствующей несмещенной оценкой

где n– число степеней свободы, m — количество объясняющих переменных модели (m-1=k – число коэффициентов βj) .

Следовательно, по выборке мы можем определить лишь выборочные дисперсии эмпирических коэффициентов ре­грессии:

Sbj2=S2zjj

S называется стандартной ошибкой регрессии. Sbj – называется стандартной ошибкой коэффициента регрессии.