Доверительные интервалы

 

Введем случайную величину

. (13.1)

Нетрудно проверить, что xÎN(0,1), вследствие чего

.

Полагая , получим после элементарных преобразований, что с

вероятностью a выполняется неравенство

. (13.2)

Интервал называется доверительным интервалом, отвечающим доверительной вероятности a . Если, к примеру, k=2, доверительная вероятность a=0.955. Значению k=3 отвечает вероятность a = 0.997 (правило «трех сигм»). Но для использования указанных доверительных интервалов на практике нужно знать стандартное отклонение s. Если значение s неизвестно, для его оценки используется величина . В этом случае можно ввести случайную величину

,

которая имеет распределение Стьюдента с n-1 степенью свободы [3]. Не выписывая здесь соответствующей функции распределения, приведем несколько значений доверительной вероятности a(k, n), отвечающих доверительному интервалу

. (13.3)

При k=2 и n=3 имеем a=0.817; при k=2 и n=7 вероятность a=0.908 ;

a(3,3)=0.905; a(3,5)=0.96. С ростом n различие между распределением Стьюдента и Гауссовым распределением становится меньше, при n=20 этим различием в большинстве случаев можно пренебречь.

Регрессионные модели мы строим по данным наблюдениям (xi,yi), i = 1,2,....n. Пусть значения x = x* не совпадают с xi. Чему будет равна величина y = y* и с какой погрешностью ее можно найти?

Попытаемся ответить на этот вопрос для случая парной линейной регрессии с нулевым свободным членом

yi = bxi + ei ,

где eiÎN(0,s), i = 1,2...n.

Параметр b оцениваем методом наименьших квадратов:

Sei2 = S(bxi – yi)2 ® min,

S(bxi – yi)xi = 0,

= (13.4)

Из формулы (13.4) следует, что оценка является гауссовой случайной величиной с математическим ожиданием

E= = = b

(оценка несмещенная) и дисперсией

D= (13.5)

Величина σ2 , как правило, неизвестна и ее следует оценить. Для этого составим сумму квадратов ошибок

Sei2 = S(bxi – yi)2 = S(bxi xi +xi - yi)2 =

= Sxi2 (b-)2 + Σ(xi –yi)2+ 2Sxi(b-)(xi- yi). (13.6)

Математическое ожидание ESei2 = SЕei2 = nσ2.

Вычисление математического ожидания в правой части равенства (13.6) дает

Sxi2 D+ EΣ(xi –yi)2,

так как математическое ожидание последнего слагаемого равно нулю. Поэтому

nσ2 = Sxi2 D+ EΣ(xi –yi)2.

С учетом формулы (13.5) получим

(n-1)σ2 = EΣ(xi –yi)2 .

Теперь ясно, что величина

S 2 = Σ(xi –yi)2 (13.7)

будет несмещенной оценкой для σ2. Множитель (n-1) указывает на то, что, располагая только одним наблюдением (x1, y1), нельзя получить оценку S 2, так как возникает неопределенность вида 0/0.

Для определения доверительного интервала оценки , отвечающего доверительной вероятности α, рассмотрим случайную величину

ξ = (b-),

имеющую нормальное распределение N(0,1). Заменив σ оценкой S , придем к случайной величине

η = (b-),

имеющей распределение Стьюдента с (n-1) степенями свободы. Для прогнозируемого значения y* регрессионная модель дает значение

y* =x* + e,

 

при этом Ey* = bx*, Dy*=( x*)2D+ De = σ2 .

Заменим дисперсию σ2 оценкой S2 из (13.7):

(Sy*)2 = S 2 .

Доверительный интервал для прогнозируемых величин y* будет определяться распределением Стьюдента. Его границы вычисляются по формуле

y = y* ± Sy*t(n-1, 1-a/2),

где a - доверительная вероятность (например, a = 0,95), (n-1) – число степеней свободы. Статистические пакеты вычисляют эти границы и дают их графическое представление.

Совершенно аналогично рассматривается общий случай множественной линейной регрессии

y =Fq + e.

Можно показать, что

Dy* = (x*)TQ x* + s2,

где xi = (x1,x2,...xn)*; Q = covq= s2(FTF)-1. Поэтому

Dy* = s2[(x*)T (FTF)-1x* +1].

Несмещенной оценкой для s 2 является число

S 2 = . (13.8)

Поэтому оценка среднеквадратичного отклонения y* будет

Sy* = S[(x*)T (FTF)-1x* +1]1/2,

а граница доверительного интервала

y = y* ± Sy*t(n-m, 1-a/2).