Парная линейная регрессия. Метод наименьших квадратов

 

Пусть имеется n пар чисел (xi, yi), i=1,2,…,n, относительно которых предполагается, что они отвечают линейной зависимости между величинами x и y:

y=a+bx, (3.1)

возможно, с некоторой ошибкой ei, так что

yi=a+bxi+e i, i=1,2,…,n . (3.2)

Какими должны быть наилучшие значения параметров a и b?

Применяя метод наименьших квадратов, мы требуем, чтобы сумма квадратов ошибок ei была наименьшей:

min. (3.3)

Подставляя значения e i из (3.2) в (3.3), получим функцию

min.

Необходимым условием минимума этой функции, как известно, является равенство нулю ее частных производных по a и b:
, .
Вычисляя производные, приходим к системе уравнений

(3.4) Заметим, что уравнения (3.4) можно записать короче в виде

(3.5)

Если раскрыть скобки в уравнениях (3.4), то после простых преобразований получим систему

(3.6)
решение которой находится без большого труда:

, (3.7)

. (3.8)

Введем обозначения:

(3.9)

, (3.10)

. (3.11)

В курсах математической статистики величины ,называются выборочными средними, ­­­­­­­­ – выборочной дисперсией, – выборочной ковариацией. Теперь формулу (3.8) можно переписать в виде

, (3.12)

а выражение для a получается из первого уравнения (3.6):

. (3.13)

Из формулы (3.13) видно, что точка лежит на прямой y=a+bx (при найденных значениях a и b). Поэтому функцию (3.1) можно записать также в виде , где параметр b определяется по формуле (3.12).

Предположим теперь, что зависимость y от x не является линейной и выражается формулой

yi = a+bf(xi)+ei , i =1,2,…,n . (3.14)

 

Введем обозначения

; , , ,

где n – число измеренных значений фактора x, а Fi = f(xi).

В матричной форме система уравнений (3.14) принимает стандартный вид

Y = Fq+e. (3.15)

Для определения параметров a и b, объединенных в вектор q , можно применить метод наименьших квадратов (отметим, что относительно искомых параметров формула (3.14) осталась линейной). В следующем параграфе показано, что решение этой задачи имеет вид

q = (FTF)-1FTY. (3.16)