Простая регрессия

 

В простой линейной регрессии предполагается, что зависимая переменная является линейной функцией от независимой переменной. Требуется найти значения параметров и , при которых прямая будет наилучшим образом описывать (аппроксимировать) значения переменных . Можно использовать нелинейную, например полиномиальную, регрессию, в которой предполагается, что зависимая переменная является нелинейной функцией заданной структуры с неопределенными коэффициентами (например, полиномом некоторой степени от независимой переменной). Например, полиномом второй степени будет зависимость вида и задачей регрессии будет нахождение коэффициентов .

Критериями качества аппроксимации могут быть

· минимум максимальной ошибки (абсолютной или относительной),

· минимум средней ошибки (абсолютной или относительной),

· минимум среднеквадратичной ошибки (абсолютной или относительной).

Оптимизация по критерию минимума максимальной ошибки.

Для линейной регрессии для каждого номера ошибка от представления значения аппроксимирующей его функцией равна . Обозначим максимальную из абсолютных величин этих ошибок через . Тогда

,

или, что то же самое

. (1)

 

Условие (1) задает систему неравенств, которым должны удовлетворять неопределенные переменные . Они должны быть выбраны так, чтобы, при выполнении условий (1) переменная принимала минимально возможное значение:

. (2)

Такая задача является математической задачей оптимизации и решается в Excell с помощью надстройки «Поиск решения». Заметим, что она является задачей т.н. линейного программирования, что облегчает решение.

Для линейной регрессии для каждого номера относительная ошибка имеет вид , соответственно, неравенства (1) переходят в

, (3)

где через обозначена максимальная из относительных ошибок. Построение регрессии сводится к отысканию таких значений переменных , при которых условия (3) выполняются с наименьшим возможным значением :

(4)

 

Оптимизация по критерию минимума средней ошибки.

В этом случае вместо максимальной ошибки или для каждого номера вводится в рассмотрение его ошибка или и соотношения (1), (3) заменяются на (1а) и (2а) соответственно:

, (1а)

. (3а)

С помощью надстройки «Поиск решения» отыскиваются такие значения переменных или соответственно, которые, удовлетворяя (1а) или (3а) обеспечивают минимальное значение критериев (2а) или (4а):

, (2а)

. (4а)

Эти задачи также являются задачами линейного программирования.

Оптимизация по критерию минимума среднеквадратичной ошибки.

В случае абсолютной ошибки среднее квадратичное отклонение рассчитанных значений зависимой переменной от заданных равно

 

.

 

Минимизируя его, из условия равенства нулю частных производных по и получены формулы для коэффициентов линейной регрессии:

,

.

 

В случае относительной ошибки среднее квадратичное отклонение рассчитанных значений зависимой переменной от заданных равно

 

.

Аналогично предыдущему, из условия равенства нулю частных производных