В простой линейной регрессии предполагается, что зависимая переменная является линейной функцией от независимой переменной. Требуется найти значения параметров и , при которых прямая будет наилучшим образом описывать (аппроксимировать) значения переменных . Можно использовать нелинейную, например полиномиальную, регрессию, в которой предполагается, что зависимая переменная является нелинейной функцией заданной структуры с неопределенными коэффициентами (например, полиномом некоторой степени от независимой переменной). Например, полиномом второй степени будет зависимость вида и задачей регрессии будет нахождение коэффициентов .
Критериями качества аппроксимации могут быть
· минимум максимальной ошибки (абсолютной или относительной),
· минимум средней ошибки (абсолютной или относительной),
· минимум среднеквадратичной ошибки (абсолютной или относительной).
Оптимизация по критерию минимума максимальной ошибки.
Для линейной регрессии для каждого номера ошибка от представления значения аппроксимирующей его функцией равна . Обозначим максимальную из абсолютных величин этих ошибок через . Тогда
,
или, что то же самое
. (1)
Условие (1) задает систему неравенств, которым должны удовлетворять неопределенные переменные . Они должны быть выбраны так, чтобы, при выполнении условий (1) переменная принимала минимально возможное значение:
. (2)
Такая задача является математической задачей оптимизации и решается в Excell с помощью надстройки «Поиск решения». Заметим, что она является задачей т.н. линейного программирования, что облегчает решение.
Для линейной регрессии для каждого номера относительная ошибка имеет вид , соответственно, неравенства (1) переходят в
, (3)
где через обозначена максимальная из относительных ошибок. Построение регрессии сводится к отысканию таких значений переменных , при которых условия (3) выполняются с наименьшим возможным значением :
(4)
Оптимизация по критерию минимума средней ошибки.
В этом случае вместо максимальной ошибки или для каждого номера вводится в рассмотрение его ошибка или и соотношения (1), (3) заменяются на (1а) и (2а) соответственно:
, (1а)
. (3а)
С помощью надстройки «Поиск решения» отыскиваются такие значения переменных или соответственно, которые, удовлетворяя (1а) или (3а) обеспечивают минимальное значение критериев (2а) или (4а):
, (2а)
. (4а)
Эти задачи также являются задачами линейного программирования.
Оптимизация по критерию минимума среднеквадратичной ошибки.
В случае абсолютной ошибки среднее квадратичное отклонение рассчитанных значений зависимой переменной от заданных равно
.
Минимизируя его, из условия равенства нулю частных производных по и получены формулы для коэффициентов линейной регрессии:
,
.
В случае относительной ошибки среднее квадратичное отклонение рассчитанных значений зависимой переменной от заданных равно
.
Аналогично предыдущему, из условия равенства нулю частных производных