Оценивание параметров и проверка гипотез о корреляции случайных переменных

Далее, в анализе коэффициента корреляции возникает следующий вопрос. Если он равен нулю для генеральной совокупности, это вовсе не значит, что он в точности будет равен нулю для выборки. Наоборот, он обязательно будет отклоняться от истинного значения, но чем больше такое отклонение, тем менее оно вероятно при данном объеме выборки. Таким образом, при каждом конкретном значении коэффициента корреляции величин Х и Y для генеральной совокупности выборочный коэффициент корреляции является случайной величиной. Следовательно, случайной величиной является также любая его функция, и требуется указать такую функцию, которая имела бы одно из известных распределений, удобное для табличного анализа. Для выборочного коэффициента корреляции r такой функцией является t-статистика, рассчитываемая по формуле . и имеющая распределение Стьюдента с (n-2) степенями свободы. Число степеней свободы меньше числа наблюдений на 2, поскольку в формулу выборочного коэффициента кор-. реляции входят средние выборочные значения Х и Y, для расчета которых используются две линейные формулы их зависимости от наблюдений случайных величин. Сразу уточним, что для коэффициента корреляции будет проверяться нулевая гипотеза, то есть гипотеза о равенстве его нулю в генеральной совокупности. Эта гипотеза отвергается, если выборочный коэффициент корреляции слишком далеко отклонился от нулевого значения, то есть произошло событие, которое было бы маловероятным в случае рху=0.

Здесь, конечно, очень важно понять, что конкретно значат слова , "слишком далеко" и "маловероятное событие". В последнем случае нужно задать вероятность такого события, которая называется в статистике "уровень значимости". Чаще всего задается уровень значимости 1% или 5%. Если для некоторого показателя проверяется гипотеза о том, что его истинное значение равно нулю, то данная гипотеза отвергается в том случае, если оценка показателя поданным выборки такова, что вероятность получения такого или большего (по модулю) ее значения меньше, чем 1% или 5% соответственно.

На рис. 13 дана иллюстрация проверки нулевой гипотезы для коэффициента корреляции, которая может быть использована для рассмотрения общей схемы проверки статистических гипотез. Здесь H0 - гипотеза о том, что истинное значение коэффициента корреляции равно нулю, альтернативная ей гипотеза H1, - что оно не равно нулю. Функция fz,- функция плотности вероятности распределения Стьюдента в случае, если нулевая гипотеза верна (она максимальна при Z=0, где Z - случайная величина выборочного коэффициента корреляции). Заштрихованная область - это область больших по абсолютной величине (маловероятных при выполнении гипотезы H0) значений выборочного коэффициента корреляции. Если последнее все-таки попало в эту область, то H0 отвергается. Площадь заштрихованной области, равная α, - уровень значимости, или вероятность того, что туда попадет величина Z при выполнении H0.

Рис. 13. Проверка нулевой гипотезы для коэффициента корреляции

Рассмотрим процедуру и примеры проверки нулевой гипотезы для коэффициента корреляции на конкретном примере. Этот пример поможет показать логику и процедуру проверки статистических гипотез вообще. Взяты 10 наблюдений показателей инфляции и безработицы в США за 1931-1940 годы, для них рассчитан выборочный коэффициент корреляции, составивший -0,227. Связь отрицательная, что соответствует теории (кривая Филлипса), но значима ли она? Проверим гипотезу Н0: р=0 о равенстве нулю истинного значения коэффициента корреляции. Для проверки гипотезы Н0, как уже говорилось, следует использовать t-статистику с n-2 степенями свободы.

Сравнивая определенное по выборочным данным значение статистики t с критическими точками, определяемыми по таблицам распределения Стьюдента, мы можем принять или отвергнуть нулевую гипотезу. В нашем примере t-статистика составляет -0,66. Зададим уровень значимости α=0,05, то есть 5%. Критическая (заштрихованная) область состоит из двух одинаковых "хвостов", площадь каждого из которых составляет 0,025. Рассмотрим таблицы вероятности того, что величина t-статистики превысит уровень z, т.е попадет в правый "хвост" распределения. Вероятность попасть только в правый "хвост", то есть в одностороннюю критическую область, равна α/2, в нашем случае 0,025. Из таблицы найдем, что критическое значение z составляет 2,306. Это означает, что нельзя отвергать нулевую гипотезу, поскольку критическая величина |t|>2,306, а в нашем случае |t|=0.66. Соответственно, для в нашем случае не исключается, что истинное значение коэффициента корреляции равно нулю, то есть на основе данной выборки не удалось сделать вывод о наличии статистически значимой линейной связи показателей инфляции и безработицы в США. Нельзя, впрочем, делать и вывод и об ее отсутствии.