В приложениях часто требуется оценить характер зависимости между наблюдёнными переменными. Основная задача при этом состоит в выравнивании (сглаживании) экспериментальных данных с помощью специально подобранных кривых, называемых линиями или поверхностями регрессии, которые с большей или меньшей надёжностью характеризуют корреляционную зависимость между наблюдаемыми переменными.
Пусть (X,Y) – двумерный случайный вектор, где случайные величины X и Y являются зависимыми. Зависимость y(x) математического ожидания Y от значения x случайной величины X есть функция регрессии Y на X: E(Y/X=x)=y(x). Можно показать, что случайная величина y(X), где y(x) - функция регрессии Y на X, является наилучшим в среднеквадратичном приближением случайной величины Y функциями от случайной величины X, т.е. математическое ожидание E(Y – f (X))2 минимально при f (x)=y(x).
Таблица 5. X = -0.05; S2 = 0,97 | Приме-чания | å= 1 | å= 200 | å= 200 | å= 209.16 | ||||
(1,5; +¥) | +¥ | 1,0000 | 0,0548 | 10,96 | 5,84 | ||||
(1;1,5) | 1,60 | 0,9452 | 0,0809 | 16,18 | 20,02 | ||||
( 0,5;1) | 1,08 | 0,8643 | 0,1386 | 27,72 | 52,09 | ||||
(0;0,5) | 0,57 | 0,7257 | 0,1859 | 37,18 | 36,82 | ||||
(-0,5;0) | 0,05 | 0,5398 | 0,2313 | 46,26 | 24,99 | ||||
(-1; -0,5) | -0,46 | 0,3085 | 0,1498 | 29,96 | 38,58 | ||||
(-1,5-1) | -0,98 | 0,1587 | 0,0919 | 18,38 | 13,93 | ||||
(-2; -1,5) | -1,49 | 0,0668 | 0,0440 | S= 0,0666 | S= 15 | S= 225 | 13,32 | 16,89 | |
(-2,5; -2) | -2,01 | 0,0228 | 0,0166 | ||||||
(-3; -2,5) | -2,53 | 0,0062 | 0,0048 | ||||||
(-3,5; -3) | -3,04 | 0,0014 | 0,0012 | ||||||
(-¥; -3,5) | -3,56 | 0,0002 | 0,0002 | ||||||
Интер- валы | Z i | Ф(Z i) | pi | ni | ni 2 | npi | ni 2/npi |
В качестве оценки функции y(x) выбирают, как правило, функции, линейно зависящие от неизвестных параметров, т.е. функцию регрессии ищут в виде:
,
где - известные функции, - подлежащие оценке параметры. Для оценки параметров по выборке (xi,yi), i=1, 2,…, n используют метод наименьших квадратов. При этом оценка находится как вектор, минимизирующий сумму
.
Необходимым (а в данном случае и достаточным) условием минимума функции S является выполнение равенств
, j=1, 2, ... , n,
которые приводят к системе уравнений, линейных относительно .
Простейшей функцией регрессии является линейная функция . В этом случае решение задачи имеет вид
,
где r(X,Y) – коэффициент корреляции X и Y, - среднеквадратичные отклонения X и Y . Функция регрессии при этом задается формулой
. (3)
В свою очередь метод наименьших квадратов приводит к следующему выражению для выборочной функции регрессии
. (4)
Здесь и - оценки математических ожиданий E(X) и E(Y), - оценки среднеквадратичных отклонений σ(X) и σ(Y), - оценка коэффициента корреляции r(X,Y); т.е. при построении выборочной регрессии при помощи метода наименьших квадратов все моменты в (3) заменяются своими выборочными оценками (см. пособие с. 96-102).
При обработке выборок большого объёма часто предварительно проводят группировку значений Х и Y подобно тому, как это было описано в первой части типового расчёта. При этом для частичных интервалов , i=1,…, k и , j= 1,…, m определяют число элементов выборки , попавших в прямоугольник , и вычисляют середины интервалов по формулам: , . Все элементы выборки, попавшие в прямоугольник , считают равными (xi*,yj*), причём количество значений xi* будет равно а количество значений yj* будет равно Объём выборки равен Все эти данные заносят в таблицу 6.
Таблица 6
yj* xi* | y1* | Y2* | … | ym* | ni |
x1* | n11 | N12 | … | n1m | n1 |
x2* | n21 | N22 | … | n2m | n2 |
… | … | … | … | … | … |
xk* | nk1 | Nk2 | … | nk m | nk |
Nj | n1 | N2 | … | nm | n |
Для расчёта коэффициентов в выборочном уравнении линии регрессии (4) используют формулы:
, , (5) , , (6)
. (7)
В вариантах заданий предлагается таблица группированных данных, на основании которой необходимо найти величины
ni, i=1,…,k; nj , j=1,…, m; n;
затем, используя формулы (5), (6), (7) определить точечные оценки математических ожиданий - и , средних квадратичных отклонений - и , коэффициента корреляции - и получить выборочное уравнение линии регрессии (4).
В качестве примера рассмотрим построение выборочного уравнения линии линейной регрессии по таблице группированных данных 7.