Проверка количественных характеристик выборки

В §1 были определены характеристики генеральной совокупности, т.е. принадлежность к одной генеральной выборке, а также среднее и первый момент.

На данном этапе имеется функция распределения, которая визуально похожа на некоторое уже известное распределение. Но необходимо описать эту близость математически.

Итак , начнем с рассмотрения критериев согласия.

Критерий Согласияприменяется в задаче проверки согласия, суть которой заключается в следующем. Пусть X1, Х2, ..., Хn -независимые случайные величины, подчиняющиеся одному и тому же вероятностному закону, функция распределения которого F(x) неизвестна. В таком случае задача статистической проверки гипотезы Н0, согласно которой F(x) = F0(x), где F0(x) - некоторая заданная функция распределения, называемая задачей проверки согласия. Например, если F0(x) - непрерывная функция распределения, то в качестве критерия согласия для проверки гипотезы Н0 можно воспользоваться критерием Колмогорова или Смирного.

 

Предположим, что выборка произведена из генераль­ной совокупности с неизвестной теоретической функцией распределе­ния, относительно которой имеются две непараметрические гипотезы: простая основная : F(x) = F0(x) и сложная конкурирующая : FF, где F(x) — известная функция распределения. Иными словами, мы хотим проверить, согласуются эмпирические данные с нашим гипотетическим предположением относительно теорети­ческой функции распределения или нет. Поэтому критерии для про­верки гипотез Ни Нносят название критериев согласия.

Пример. Гипотезу о том, что числа представляют собой независимые значения случайной величины, равномер­но распределенной на отрезке , можно проверять с помощью критерия Колмогорова, основанного на ста­тистике

,

где - эмпирическая функция распределения выборки. Соответствующая детерминистическая задача: можно ли с заданной точностью оценить интеграл произвольной функ­ции f(x) из , усредняя значения . Формула

показывает, что это возможно тогда и только тогда, когда величина х достаточно мала.

Критерий согласия Колмогорова. Уже говорилось (параграф 3 гл. 1), что в силу теоремы Гливенко-Кантелли эмпирическая функция распреде­ления F*(x) представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнить эмпирическую функцию распределения F*(x) с гипотетической F0(x) и, если мера расхождения между ними мала, то считать справедливой гипотезу H0.

Наиболее естественной и про­стой из таких мер (будем предпо­лагать, что F(x) — непрерывная функция) является равномерное расстояние

(рис. 6). Од­нако при построении критерия

Колмогорова более удобно пользоваться нормированным расстоянием .

Итак, рассмотрим статистику

Критерий Колмогорова предписывает принять гипотезу H0, если <С, и отвергнуть в противном случае, где С — критическое значение кри­терия.

Если гипотеза Hсправедлива, то распределение статистики не зависит от гипотетической функции распределения F0(x) (доказа­тельство этого факта следует из инвариантности статистики критерия Колмогорова относительно монотонных преобразований, в частности преобразования g(x)=F(x), где F(x) — обратная к F(x) функ­ция; преобразование g(х) приводит выборку Х,...,Хк равномерно распределенной на отрезке (0,1)). Поэтому можно рассчитать таблицы, которые по заданному объему выборки и и критическому значению С позволяют определить уровень значимости критерия а. Поскольку на практике обычно, наоборот, считают известными уровень значимости а и объем выборки п, а затем по ним определяют критическое значе­ние С.

При —> распределение статистики сходится к распределению Колмогорова [1, табл. 6.1], и критическое значение С при большом объеме выборки практически совпадает с (1-)-квантилью рас­пределения Колмогорова.

При практической реализации критерия Колмогорова сначала по выборке Х,...,Хсоставляют вариационный ряд Х,…,Х. Затем находят F(X) и определяют значения статистики р по формуле

Наконец, сравнивают полученное значение с критическим значени­ем С для заданного уровня значимости и принимают или отвергают гипотезу H.

Пример. Проверим с помощью критерия Колмогорова гипотезу Но том, что проекция X вектора скорости молекулы водорода на ось координат (см. пример 1 из гл. 1) распределена по нормальному закону. Проверку про­изведем для уровня значимости = 0,05. Параметры нормального закона не заданы, значит, мы имеем дело со сложной гипотезой Ни сначала должны оценить среднее и дисперсию - Поскольку мы будем пользоваться кри­терием Колмогорова, хотелось бы оценки и неизвестных параметров и выбрать таким образом, чтобы они доставляли минимальное значение статистики критерия Колмогорова

где — вариационный ряд выборки , приведенный в табл. 3 гл. 1, а — функция распределения

нормального закона с параметрами . Однако искать минимум

как функции от и — весьма сложная в вычислительном плане

задача, так как Ф(х) даже не выражается в элементарных функциях-

Поэтому в качестве оценок и используем оценки максимального правдоподобия и (см. примеры 8 из гл. 1 и 15 из гл.2). Теперь с помощью критерия Колмогорова будем проверять простую гипотезу . Вычислив сначала и воспользовавшись равенством последовательно находим затем значения (1, c. 112-117), b (табл.2). Наконец, определяя значение статистики критерия Колмогорова

(максимальное значение равно 0,06) и сравнивая его с 0,95-квантилью распределения Колмогорова , видим, что <.Значит, мы должны принять гипотезу Ни считать распределение проекции вектора скорости молекулы водорода нормальным.

Критерий Шапиро-Уилка. Базируется на анализе линейной комбинации разностей порядковых статистик, используют при объемах выборки 8£ £50. Рекомендуют применять при отсутствии априорной информации о типе возможного отклонения от нормальности. Критерий Шапиро-Уилкаhttp://www.ami.nstu.ru/%7Eheadrd/Kurs_projekt.htm - _ftn5 используют в тех случаях, когда в качестве альтернативы можно выбрать гипотезу следующего вида: примерно симметричное распределение с <1/2 и <3 или асимметричное распределение (например, >1/2). В противном случае рекомендуют критерий Эппса-Палли. Для вариационного ряда , построенного по наблюдаемой выборке , вычисляют величину

(159)

где индекс изменяется от 1 до или от 1 до при четном и нечетном соответственно. Статистика критерия имеет вид

. (160)

Гипотеза о нормальности отвергается при малых значениях статистики .

Критерий Эппса-Палли. Базируется на сравнении эмпирической и теоретической характеристических функциях, применяют при 8 200. По наблюдаемой выборке вычисляют статистику критерия

, (161)

где , .

Гипотезу о нормальности отвергают при больших значениях статистики.

Модифицированный критерий Шапиро-Уилка. Применяется для нескольких неза­висимых выборок одинакового объема 8 50, когда отдельная выборка слишком мала, чтобы обнаружить отклонения от нормальности. Предполагается, что выборок одного и того же объема взято из одной генеральной совокупности. Для каждой выборки в соответствии с соотношением (160) подсчитывают значения , . Вычисляют значения

, (161)

где

, (162)

а коэффициенты , и табулированы. Если наблюдаемое распределение нормальное, то переменные приблизительно подчиняются стандартному нормальному закону. В качестве статистики критерия используется величина

, (163)

где

. (164)

Гипотеза о нормальности отклоняется, при уровне значимости , если

< , (165)

где – соответствующий квантиль стандартного нормального распределения.