Регрессионный анализ.

Рассмотрим выборку двумерной случайной величины (Х, Y) . Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним назовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее -среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. В лекции 11 были выведены уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M ( X / y ) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

=f*(x) - (22.1)

- выборочное уравнение регрессии Y на Х,

= φ*(у) - (22.2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если сам вид этих уравнений известен.

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρyxx + b , (22.3)

Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х1, у1), (х2, у2), …, (хп, уп) лежали как можно ближе к прямой (22.3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (22.4)

Приравняем нулю соответствующие частные производные:

.

В результате получим систему двух линейных уравнений относительно ρ и b:

. (22.5)

Ее решение позволяет найти искомые параметры в виде:

. (22.6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

 

Y X
x1 x2 xk ny
y1 y2ym n11 n12n1m n21 n22n2m … … … … nk1 nk2nkm n11+n21+…+nk1 n12+n22+…+nk2 …………….. n1m+n2m+…+nkm
nx n11+n12+…+n1m n21+n22+…+n2m nk1+nk2+…+nkm n=nx =ny

 

Здесь nij – число появлений в выборке пары чисел (xi, yj).

Поскольку , заменим в системе (22.5)

, где пху – число появлений пары чисел (х, у). Тогда система (22.5) примет вид:

. (22.7)

Можно решить эту систему и найти параметры ρух и b, определяющие выборочное уравнение прямой линии регрессии:

.

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (22.7):

.

Подставим это выражение в уравнение регрессии: . Из (22.7)

, (22.8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (22.8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (22.9)