Регрессионный анализ: построение предположений

Важнейшей особенностью корреляционных исследований является возможность при наличии сильной корреляциистроить предположения о будущем поведении. Корреляция между двумя переменными дает возможность на основании значений одной из них предсказать значения другой. Это несложно показать на примере со средними баллами. Если мы знаем, что время, посвященное учебе, и средний балл коррелируют, и что некто занимается 45 часов в неделю, мы сможем безошибочно предсказать относительно высокий средний балл для такого студента. Аналогично высокий средний балл позволит вам предсказать время, уделяемое учебе. Построение предположений на основании корреляционных исследований называется регрессионным анализом.

На рис. представлен график рассеяния для: а) времени, посвященного учебе и среднего балла и б) бесполезно потраченного времени и среднего балла. На каждом графике отображена и линия регрессии, которая используется для построения предположений. Линию регрессии также называют «оптимальной линией»: она представляет собой наилучший из возможных способов обобщения точек графика рассеяния. Это значит, что абсолютные значения расстояний по вертикали между каждой точкой графика и линией регрессии минимальны.

Линия регрессии рассчитывается по формуле Y = a + bX, где а – это точка, в которой прямая пересекает ось У (т. е. отрезок, отсекаемый на оси У), a b – это угол наклона прямой, или ее относительная крутизна. X – это известная величина, а У– величина, которую мы пытаемся предсказать. Зная 1) силу корреляции и 2) стандартное отклонение для коррелирующих переменных, можно вычислить величину b, зная 1) значение b и 2) средние значения коррелирующих переменных, можно найти а.

В регрессионном анализе для предсказания значения Y (например, среднего балла) на основании значения X (например, времени, посвященного учебе) используется уравнение регрессии. Y иногда называют критериальной переменной, а X — предикторной переменной. Однако для построения точных предположений корреляция должна быть значительно выше нуля. Чем выше корреляция, тем ближе будут точки графика рассеяния к линии регрессии и тем больше будет уверенность в том, что ваши предположения верны. Таким образом, отмеченная ранее проблема ограничения диапазона, которая снижает корреляцию, также снижает достоверность предсказаний.

График, отражающий уравнение регрессии, показывает, как строить предположения с помощью линии регрессии.

Например, какой средний балл стоит ожидать у студента, который проводит за учебой по 34 часов в неделю. Чтобы получить ответ, проведем перпендикуляры от оси X к линии регрессии, а затем от точки пересечения к оси Y. Значение точки на оси Y и будет предполагаемым значением (помним, что правильность предположения зависит от силы корреляции). Таким образом, по времени учебы, равному 40 часам, можно предсказать средний балл, равный 3,4, а по бесполезно потраченному 41 часу — средний балл чуть выше 2,3. С помощью формулы регрессии можно вычислить более точные значения и сделать более точные предсказания.

Как рассчитать коэффициенты регрессионного уравнения можно посмотреть, например, в учебнике Гудвина, в приложении С.

Следует знать, что регрессионный анализ применяется в большинстве исследований, о которых мы узнаем из средств массовой информации.

К примеру, нам может встретиться отчет об исследовании «факторов риска для инфаркта», в котором на основании значимой корреляции между курением и сердечными заболеваниями сделан вывод, что у людей, злоупотребляющих курением, больше вероятность развития сердечно-сосудистых заболеваний, чем у некурящих. Это значит, что курение является основанием для предсказания развития болезней сердца. На основании другого исследования, посвященного изучению «портрета жестокого супруга (супруги)», может быть сделан вывод о том, что вероятность появления подобного поведения увеличивается, если виновник – безработный. Это следует из наличия корреляции между безработицей и склонностью к оскорбительному поведению. На основании наличия корреляции с помощью регрессионного анализа, зная первое, можно сделать предположение насчет второго.