Корреляция и регрессия: основы

«На Гальтона произвела большое впечатления теория эволюции Дарвина, а в особенности мысль о том, что особи, принадлежащие к одному биологическому виду, отличаются друг от друга. Индивидуальные особенности, способствующие выживанию, подвергаются «естественному отбору» и передаются потомкам. Гальтон считал, что интеллект является особенностью, которая различается у всех людей, важна для выживания и наследуется так же, как физические характеристики, например как цвет глаз или рост. Он собрал факты, подтверждающие наследуемость интеллекта, и опубликовал две книги, посвященные этому вопросу: «Потомственные гении» (1869) и «Ученые-англичане: природа и воспитание» (1874). Последний труд популяризировал широко известные сегодня термины «природа» (nature) и «воспитание» (nurture). В своих работах Гапьтон отметил статистическую тенденцию, заключающуюся в том, что гениальность и способности, проявляющиеся в определенных областях (например, способности к химии или юриспруденции), прослеживаются в нескольких поколениях внутри семьи. Однако он недооценил влияние окружающей среды и сделал вывод, что гениальность возникает в результате передачи наследственной информации. Он аргументировал свою точку зрения, в частности, тем, что интеллект в популяции имеет нормальное распределение. Другие наследуемые особенности (например, рост) также имеют нормальное распределение, и поэтому Гальтон принял этот статистический факт за показатель влияния наследственности.

Только в 1888 г. ученому удалось показать высокую частоту появления таких черт, как гениальность в семьях: свои представления он сформулировал в работе, названной «Корреляция и ее измерение». Во-первых, Гальтон обнаружил, что данные можно особым образом организовать по рядам и столбцам и получил прототип сегодняшнего «графика рассеяния». Во-вторых, Гальтон заметил, что когда «корреляция» была неполной, начинала проявляться одна закономерность. У родителей с ростом выше среднего были высокие дети, но довольно часто они были не такими высокими, как мать и отец. У родителей с ростом ниже среднего дети были низкие, но не настолько. Это означает, что рост у детей имеет тенденцию смещаться, или регрессировать, в сторону среднего арифметического значения в популяции.

Феномен «регрессии к среднему», который представляет угрозу внутренней валидности исследования, является одним из самых выдающихся открытий Гальтона.

Третье наблюдение Гальтона состояло в том, что график, построенный по значениям среднего арифметического для каждого столбца таблицы рассеяния, дает более или менее прямую линию. По сути, он представляет собой разновидность «линии регрессии». Таким образом, Гальтон открыл основные характеристики корреляционного анализа.

Прочитав о работе Гальтона, Карл Пирсон продолжил изыскания в этой области и разработал формулу для вычисления коэффициента корреляции. Он обозначил коэффициент буквой «r», что значит «регрессия», в честь сделанного Гальтоном открытия регрессии к среднему. Вслед за Гальтоном Пирсон считал, что корреляционный анализ подтверждает идею о наследуемости многих свойств, обнаруживающих себя в отдельных семьях». (Цит. по Гудвин Д., Исследование в психологии. Питер, 2004, с.312-313).

Считается, что переменные коррелируют, если между ними существует какая-либо взаимосвязь. Это подразумевает сам термин «корреляция» – взаимная связь, отношение. В случае прямой или положительной корреляции взаимосвязь такова, что высокие значения одной переменной связаны с высокими значения другой, а низкие значения первой с низкими значениями второй. Отрицательная корреляция означает обратную взаимосвязь. Высокие значения одной переменной связаны с низкими значениями другой, и наоборот.

Взаимосвязь между временем, посвященным занятиям, и оценками является примером положительной корреляции. Примером отрицательной корреляции может быть взаимосвязь между бесполезно потраченным временем и средним баллом. Бесполезно потраченное время можно операционально определить как количество часов в неделю, потраченное на определенные занятия, например на видеоигры или просмотр телесериалов.

Силу корреляции показывает особая величина описательной статистики – «коэффициент корреляции». Коэффициент корреляции равен -1,00 в случае прямой отрицательной корреляции, 0,00 при отсутствии взаимосвязи и +1,00 при полной положительной корреляции. Наиболее распространенным коэффициентом корреляции является г Пирсона. Пирсоново г вычисляется для данных, полученных с помощью интервальной шкалы или шкалы отношений. В случае других шкал измерений рассматриваются другие виды корреляции. К примеру, для порядковых данных (т. е. упорядоченных) вычисляется ρ (ро) Спирмена (иначе эту статистику обозначают как rs).

Так же как среднее арифметическое и стандартное отклонение, коэффициент корреляции является величиной описательной статистики. В ходе заключительного анализа определяется, является ли конкретная корреляция значимо большей (или меньшей) нуля. Таким образом, для корреляционных исследований нулевая гипотеза (Н0) говорит, что действительное значение г = 0 (т. е. нет никаких взаимосвязей), а альтернативная гипотеза (Н1) — что г ≠ 0. Отвергнуть нулевую гипотезу – значит решить, что между двумя переменными существует значимая взаимосвязь.