Выравнивание статистических рядов

Всякому статистическому ряду присущи черты случайности, вызванные ограниченностью числа произведенных испытаний, ошибками наблюдения и другими причинами. При увеличении выборки эти черты случайного начинают сглаживаться.

Основной задачей математической статистики является построение такого теоретического распределения, которое воспроизводило бы существенные черты описываемого данным рядом явления.

Выравниванием статистического ряданазывается построение такой теоретической кривой распределения, которая наилучшим образом согласуется с данным статистическим материалом, т. е. воспроизводит существенные черты явления, описываемого данным рядом. Решение этой задачи распадается на 3 этапа:

1) выбор вида функции распределения вероятностей;

2) выбор параметров, входящих в эту функцию;

3) оценка соответствия теоретического и экспериментального распределений.

Вид кривой распределения устанавливают, исходя из характера изучаемого процесса, явления, генеральной совокупности. Иногда по внешнему виду гистограммы можно сделать предположение относительно вида кривой распределения. На основе изучения выборки выдвигают гипотезу относительно закона распределения, которая называется основной или нулевой. Наряду с основной выдвигают конкурирующуюили альтернативнуюгипотезу , которая противоречит основной гипотезе.

В результате статистической проверки гипотезы могут быть допущены ошибки двух родов

1) ошибка первого рода – правильная гипотеза отвергнута;

2) ошибка второго рода – принята неправильная гипотеза.

Ошибки второго рода обычно бывают более грубыми. Например, если отвергнуто правильное решение– продолжение строительства жилого дома, то эта ошибка первого рода повлечет за собой материальный ущерб.

Если же было принято неправильное решение – продолжить строительство дома, несмотря на опасность обвала, то эта ошибка может повлечь за собой гибель людей.

Вероятность совершить ошибку первого рода называется уровнем значимостии обозначается через . Наиболее часто принимается уровень значимости или . Если принят уровень значимости, то это означает, что в пяти случаях из 100 имеется риск отвергнуть правильную гипотезу.

Вероятность ошибки второго рода обозначается через . Очевидно, что вероятность отвергнуть неверную гипотезу равна .

Наиболее часто в природе встречается нормальное распределение. Поэтому проведем выравнивание статистического ряда в предположении о том, что генеральная совокупность имеет нормальное распределение. Пусть необходимо проверить нулевую гипотезу о том, что исследуемая случайная величина подчиняется закону нормального распределения. Грубую проверку этого предположения можно провести с помощью выборочной асимметрии и выборочного эксцесса .Степень точности этих статистик приближенно оценивается их средним квадратичным отклонением

.

Считается, что если и не выходят за пределы интервалов и соответственно, то нет оснований для браковки гипотезы . В этом случае нужно построить теоретическую кривую распределения и провести проверку гипотезы с помощью более основательного критерия, например, критерия Пирсона. Если же или выходят за пределы интервалов и соответственно, то это может служить основанием для браковки гипотезы и выдвигать новую гипотезу: признак в генеральной совокупности имеет распределение близкое к нормальному.

Пусть и не выходят за пределы интервалов и соответственно, и нет оснований для браковки гипотезы . Плотность нормального распределения содержит 2 параметра и , статистическими оценками которых являются среднее арифметическое и статистическое СКВО , т.е. . Вероятность попадания С.В. в интервал равна , где середина интервала (напомним, что – элемент вероятности– вероятность попадания С.В. в промежуток ). С другой стороны, если объем выборки велик, то эта вероятность приближенно равна, где – теоретическая частота, относящаяся к интервалу . Тогда - теоретическая частота.

Очевидно, что чем меньше разности теоретических и опытных частот, тем лучше найденное теоретическое распределение соответствует изучаемому статистическому ряду. Существуют числовые критерии, позволяющие оценивать степень близости теоретического и экспериментального распределения и позволяющие судить о том, обусловлено ли расхождение чисто случайными причинами, например недостаточным объемом выборки или неудачным выбором вида теоретической кривой распределения. Такие критерии называются критериями согласия. Наиболее часто используют критерии Пирсона, Колмогорова, Смирнова, Романовского.