Ковариация и регрессия. Построение выборочного уравнения линии регрессии. Методические указания.

 

В приложениях часто требуется оценить характер зависимости между наблюдёнными переменными. Основная задача при этом состоит в выравнивании (сглаживании) экспериментальных данных с помощью специально подобранных кривых, называемых линиями или поверхностями регрессии, которые с большей или меньшей надёжностью характеризуют корреляционную зависимость между наблюдаемыми переменными.

Пусть (X,Y) – двумерный случайный вектор, где случайные величины X и Y являются зависимыми. Зависимость y(x) математического ожидания Y от значения x случайной величины X есть функция регрессии Y на X: E(Y/X=x)=y(x). Можно показать, что случайная величина y(X), где y(x) - функция регрессии Y на X, является наилучшим в среднеквадратичном приближением случайной величины Y функциями от случайной величины X, т.е. математическое ожидание E(Y – f (X))2 минимально при f (x)=y(x).

    Таблица 5. X = -0.05; S2 = 0,97     Приме-чания     å= 1 å= 200   å= 200 å= 209.16
  (1,5; +¥) 1,0000 0,0548 10,96 5,84
  (1;1,5) 1,60 0,9452 0,0809 16,18 20,02
  ( 0,5;1) 1,08 0,8643 0,1386 27,72 52,09
(0;0,5) 0,57 0,7257 0,1859 37,18 36,82
  (-0,5;0) 0,05 0,5398 0,2313 46,26 24,99
  (-1; -0,5) -0,46 0,3085 0,1498 29,96 38,58
  (-1,5-1) -0,98 0,1587 0,0919 18,38 13,93
  (-2; -1,5) -1,49 0,0668 0,0440 S= 0,0666 S= 15 S= 225 13,32 16,89
  (-2,5; -2) -2,01 0,0228 0,0166
  (-3; -2,5) -2,53 0,0062 0,0048
  (-3,5; -3) -3,04 0,0014 0,0012
  (-¥; -3,5) -3,56 0,0002 0,0002
Интер- валы Z i Ф(Z i) pi ni ni 2 npi ni 2/npi

 

В качестве оценки функции y(x) выбирают, как правило, функции, линейно зависящие от неизвестных параметров, т.е. функцию регрессии ищут в виде:

,

где - известные функции, - подлежащие оценке параметры. Для оценки параметров по выборке (xi,yi), i=1, 2,…, n используют метод наименьших квадратов. При этом оценка находится как вектор, минимизирующий сумму

.

Необходимым (а в данном случае и достаточным) условием минимума функции S является выполнение равенств

, j=1, 2, ... , n,

которые приводят к системе уравнений, линейных относительно .

Простейшей функцией регрессии является линейная функция . В этом случае решение задачи имеет вид

,

где r(X,Y) – коэффициент корреляции X и Y, - среднеквадратичные отклонения X и Y . Функция регрессии при этом задается формулой

. (3)

В свою очередь метод наименьших квадратов приводит к следующему выражению для выборочной функции регрессии

. (4)

Здесь и - оценки математических ожиданий E(X) и E(Y), - оценки среднеквадратичных отклонений σ(X) и σ(Y), - оценка коэффициента корреляции r(X,Y); т.е. при построении выборочной регрессии при помощи метода наименьших квадратов все моменты в (3) заменяются своими выборочными оценками (см. пособие с. 96-102).

При обработке выборок большого объёма часто предварительно проводят группировку значений Х и Y подобно тому, как это было описано в первой части типового расчёта. При этом для частичных интервалов , i=1,…, k и , j= 1,…, m определяют число элементов выборки , попавших в прямоугольник , и вычисляют середины интервалов по формулам: , . Все элементы выборки, попавшие в прямоугольник , считают равными (xi*,yj*), причём количество значений xi* будет равно а количество значений yj* будет равно Объём выборки равен Все эти данные заносят в таблицу 6.

 

Таблица 6

yj* xi* y1* Y2* ym* ni
x1* n11 N12 n1m n1
x2* n21 N22 n2m n2
xk* nk1 Nk2 nk m nk
Nj n1 N2 nm n

 

Для расчёта коэффициентов в выборочном уравнении линии регрессии (4) используют формулы:

, , (5) , , (6)

. (7)

 

В вариантах заданий предлагается таблица группированных данных, на основании которой необходимо найти величины

ni, i=1,…,k; nj , j=1,…, m; n;

затем, используя формулы (5), (6), (7) определить точечные оценки математических ожиданий - и , средних квадратичных отклонений - и , коэффициента корреляции - и получить выборочное уравнение линии регрессии (4).

В качестве примера рассмотрим построение выборочного уравнения линии линейной регрессии по таблице группированных данных 7.