Регрессионные модели с точками разрыва

Кусочно - линейная регрессия. Нередко вид зависимости между предикторами и переменной отклика различается в разных областях значений независимых переменных. Например, вы рассматриваете себестоимость единицы некоторого продукта как функцию от объема произведенной продукции за месяц. Обычно, чем больше единиц товара вы производите, тем ниже себестоимость каждой единицы, и эта линейная зависимость существует в широких пределах изменения объема произведенной продукции. Однако при прохождении кривой выпуска через некоторые значения себестоимость может меняться скачкообразно. Например, себестоимость может увеличиваться при увеличении объема производства из-за того, что для производства дополнительных единиц используются другие (устаревшие) станки. Допустим, что устаревшие машины используются в производстве при достижении объемом производства уровня 500 единиц в месяц; этой ситуации соответствует следующая регрессионную модель для себестоимости:

y = b₀ + b₁*x*(x 500) + b₂*x*(x > 500)

В этой формуле: y означает оцениваемую себестоимость, а x равен объему продукции, произведенной за месяц. Выражения (x 500) и (x > 500) обозначают логические условия, принимающие значения 1 если они истинны, и 0 иначе. Таким образом, эта модель определяется общим свободным членом (b₀) и угловым коэффициентом, соответствующим b₁ (если выражение x 500 истинно, т.е., равно 1) или b₂ (если выражение x > 500 истинно, т.е., равно 1).

Вместо явного задания точки разрыва регрессионной кривой (500 единиц в месяц в последнем примере), можно также оценить положение этой точки. Например, мы могли заметить и предположить, что кривая себестоимости имеет разрыв в некоторой точке; однако не всегда очевидно, в какой именно точке происходит разрыв. В этом случае, достаточно просто заменить 500 в выписанном выше уравнении на дополнительный параметр (например, b₃).

Регрессия с точками разрыва. Выписанное выше уравнение можно легко преобразовать к регрессии с точками разрыва, т.е. добавить скачкообразные изменения в некоторых точках кривой. Например, предположим, что после запуска устаревших станков, себестоимость “подпрыгнула” до более высокого уровня и затем продолжила медленно уменьшаться при увеличении объема производства. В этом случае, достаточно просто добавить (b₃), тогда:

y = (b₀ + b₁*x)*(x 500) + (b₃ + b₂*x)*(x > 500)

Сравнение групп. Описанный здесь метод для оценивания различных регрессионных уравнений в разных областях значений независимых переменных может также быть использован для распознавания принадлежности элементов различным группам. Например, пусть в рассмотренном выше примере имеется три различных завода. Для простоты изложения “забудем” пока про возможные точки разрыва. Если сгруппировать переменные по принадлежности к соответствующему заводу, присвоив группирующей переменной значения 1,2 и 3, соответственно, мы сможем одновременно записать три различных регрессионных уравнения:

y = (x_p=1)*(b₁₀ + b₁₁*x) + (x_p=2)*(b₂₀ + b₂₁*x) + (x_p=3)*(b₃₀ + b₃₁*x)

В этом уравнении, x_p обозначает группирующую переменную, содержащую коды, определяющие завод, b₁₀, b₂₀ и b₃₀ соответствуют свободным членам, а b₁₁, b₂₁ и b₃₁ определяют угловые коэффициенты графика себестоимости (коэффициенты регрессии) для каждого завода. Вы можете сравнить правдоподобие этой и обычной регрессионной модели (без рассмотрения различных заводов) для того, чтобы определить более подходящую.