Критерий Смирнова - раздел Математика, Доклады по дисциплине Дополнительные главы математической статистики . Регрессионный анализ. 4 Предполагается, Что Функции Распределения ...
Предполагается, что функции распределения и являются непрерывными. Статистика критерия Смирнова измеряет различие между эмпирическими функциями распределения, построенными по выборкам
.
При практическом использовании критерия значение статистики рекомендуется вычислять в соответствии с соотношениями
,
,
.
Если гипотеза H0 справедлива, то при неограниченном увеличении объемов выборок ,
т.е. статистика в пределе подчиняется распределению Колмогорова - предельное распределение, к которому стремится при nраспределение статистики
,
где функция выборочного распределения Fn(x)-несмещенная точечная статистическая оценка для непрерывной ф-и теоретического распределения F(x). Т.е. статистика
(1)
в пределе подчиняется распределению Колмогорова.
Однако иногда при огр. значениях m,n случайные величины Dm,n и Dm,n+ являются дискретными, и множество их возможных значений представляет собой решетку с шагом , где k наименьшее общее кратное n и m. Для значений таблицы процентных точек для статистики Dm,n приводятся в [3]. Условное распределение статистики Sc при справедливости гипотезы H0 медленно сходится к и существенно отличается от него при не очень больших m и n. Асимптотические формулы для распределений Dm,n и Dm,n+ рассматривались в [7, 8, 9].
На рис. 1 показаны условные распределения статистики (1) при справедливости H0 в зависимости от m и n (при m=n). Как следует из полученной картины, даже при и ступенчатость сохраняется. Другим недостатком применения критерия со статистикой (1) является то (см. рис. 1), что распределения с ростом m и n приближаются к предельному распределению слева.
Рис. 1. Распределения статистики (1) при справедливости H0 в зависимости от m,n
Гладкость распределения статистики сильно зависит от величины k. Поэтому предпочтительнее применять критерий, когда объемы выборок m,n не равны и представляют собой взаимно простые числа. В таких случаях наименьшее общее кратное m,n максимально и равно k=mn, а распределение статистики существенно больше напоминает непрерывную функцию распределения. И вот тогда при небольших и умеренных значениях m,n проявляется существенное отличие распределения от предельного , так как заметно сдвинуто влево от .
В этой связи можно предложить следующую простую модификацию статистики (1),
, (2)
у которой практически отсутствует последний недостаток. Условные распределения статистики (2) при справедливости H0 в зависимости от m,n (при m=n) иллюстрирует рис. 2.
Рис. 2. Распределения статистики (2) при справедливости H0 в зависимости от m,n
Как было сказано выше, гладкость распределения статистики зависит от величины k. В качестве иллюстрации этого факта и различий в распределениях статистик (1) и (2) на рис. 3 приведены предельное распределение Колмогорова и полученные в результате моделирования эмпирические распределения статистики (1) и статистики (2) при и . Как видим, распределение статистики (1) существенно отличается от распределения Колмогорова , а распределение статистики (2) визуально практически совпадает с ним. Объем выборок смоделированных значений статистик в данном случае, как и во всех остальных в данной работе, составил 10000 наблюдений. При проверке согласия полученного эмпирического распределения статистики (2) с распределением Колмогорова достигнутые уровни значимости по соответствующим критериям составили: 0.72 по критерию Пирсона (при 10 равновероятных интервалах), 0.83 по критерию Колмогорова, 0.97 по критерию Крамера-Мизеса-Смирнова, 0.94 по критерию Андерсона-Дарлинга.
Рис. 3. Распределения статистики (1) и (2) при справедливости H0, m=61, n=53
Использование в критерии Смирнова со статистикой (2) взаимно простых m,n делает более обоснованным вычисление достигаемого уровня значимости , где SCM* – значение статистики (2), найденное при проверке гипотезы H0 по конкретным выборкам, в соответствии с распределением Колмогорова: . Соответственно, более правомерно применение в критерии процентных точек (квантилей) распределения Колмогорова. Этого нельзя сказать относительно критерия Смирнова со статистикой (1), так как в этом случае критические значения, определяемые по распределению Колмогорова, оказываются завышенными по сравнению с истинными. Следовательно, проверяемая гипотеза может необоснованно приниматься (не отклоняться).
Коэффициент 4.6 в статистике (2) подобран эмпирически. Он удовлетворительно действует от малых до очень приличных объемов выборок (m=n=1000). Однако при больших значениях наименьшего общего кратного m,n, когда они представляют собой взаимно простые числа, величина этого коэффициента должна быть несколько уменьшена. Например, при простых и коэффициент 4.6 следует заменить на 3.4.
Ниже при исследовании мощности критерия Смирнова рассматривались распределения статистики (1). Но все выводы относительно мощности справедливы и для критерия со статистикой (2), так как все распределения при одинаковых объемах выборок оказываются сдвинутыми на одну и ту же величину [см. (2)].
Предвосхищая вопросы о точности, отметим, что для проверки соответствия результатов моделирования имеющимся теоретическим [3] нами специально моделировались распределения статистики Dm,n. Результаты показали полное совпадение критических значений, получаемых в процессе моделирования, с точными критическими значениями статистики, приводимыми в [3].
В данной работе мощность критериев проверки однородности исследовалась при ряде альтернатив. Для определенности гипотезе H0 соответствовала принадлежность выборок одному и тому же стандартному нормальному закону распределения с плотностью
с параметрами сдвига и масштаба . При всех альтернативах первая выборка всегда соответствовала стандартному нормальному закону, а вторая – некоторому другому. В частности, в случае гипотезы H1 вторая выборка соответствовала нормальному закону с параметром сдвига и параметром масштаба . В случае гипотезы H2 – нормальному закону с параметрами и . В случае гипотезы H3 – нормальному закону с параметрами и . В случае гипотезы H4 – нормальному закону с параметрами и . В случае гипотезы H5 – вторая выборка соответствовала логистическому закону с плотностью
и параметрами и . Нормальный и логистический законы очень близки и трудно различимы с помощью критериев согласия. На рис. 4 представлены полученные в результате моделирования условные распределения статистики при справедливости H1, на основании которых можно оценить значения мощности при различных значениях объемов выборок m,n.
Рис. 4. Распределения статистики (1) при справедливости H1.
Аналогичным образом при различных объемах выборок были построены условные распределения статистики (1) при справедливости других рассматриваемых альтернатив: , , , . На основании этих распределений и предельного распределения статистики = были вычислены значения мощности критерия относительно различных альтернатив. Найденные значения мощности критерия Смирнова, где - вероятность ошибки второго рода, относительно рассматриваемых конкурирующих гипотез H1 ÷ H5 при различных объемах выборок для уровней значимости (вероятностей ошибок первого рода) =0.1, 0.05, 0.025 представлены в таблице 1.
Таблица 1. Мощность критерия однородности Смирнова относительно альтернатив H1÷ H5 в зависимости от объемов выборок (m=n)
Уровень значимости
Значения мощности относительно альтернативы
n=20
n=50
n=100
n=300
n=500
n=1000
n=2000
0,1
0,0937
0,1480
0,1766
0,2775
0,3806
0,6171
0,8688
0,05
0,0410
0,0569
0,0944
0,1883
0,2682
0,4899
0,7762
0,025
0,0410
0,0344
0,0505
0,1163
0,1829
0,3859
0,6737
Значения мощности относительно альтернативы
0,1
0,3457
0,7200
0,9332
0,05
0,2202
0,5341
0,8722
0,9996
0,025
0,2202
0,4328
0,7842
0,9992
Значения мощности относительно альтернативы
0,1
0,0884
0,1229
0,1257
0,1466
0,1856
0,2967
0,5508
0,05
0,0352
0,0458
0,0630
0,0789
0,1024
0,1677
0,3520
0,025
0,0352
0,0257
0,0280
0,0410
0,0518
0,0967
0,2098
Значения мощности относительно альтернативы
0,1
0,1396
0,2986
0,5213
0,9609
0,9989
0,05
0,0570
0,1268
0,3161
0,8977
0,9952
0,025
0,0570
0,0763
0,1689
0,7738
0,9786
Значения мощности относительно альтернативы
0,1
0,0836
0,1209
0,1308
0,1568
0,1976
0,3191
0,5639
0,05
0,0341
0,0455
0,0673
0,0891
0,1158
0,1879
0,3754
0,025
0,0341
0,0258
0,0316
0,0471
0,0618
0,1119
0,2390
Подчеркнем, что значения мощностей, приведенные в таблице 1, получены относительно ()-квантилей предельного распределения Колмогорова . Вследствие того, что распределения статистики (1) существенно отличаются от , действительные уровни значимости отличаются от заданных =0.1, 0.05, 0.025. В таблице 2 приведены действительные уровни значимости для критерия Смирнова, соответствующие значениям мощности, представленным в таблице 1. Вследствие ступенчатости действительные значения особенно сильно отличаются от задаваемых при малых объемах выборок. Например, для при задаваемом уровне значимости 0.1 мы имеем действительный уровень значимости 0.0835.
Таблица 2. Действительные уровни значимости критерия однородности Смирнова, соответствующие (1-α)–квантилям распределения Колмогорова, в зависимости от объемов выборок (n=m)
Содержание... Регрессионный анализ Теоретическая часть работы...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Критерий Смирнова
Что будем делать с полученным материалом:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Виды регрессионного анализа
Многошаговая регрессия (ШРА) — последовательность шагов РА, выполняемая в направлении увеличения или уменьшения количества учитываемых коэффициентов линейной модели регрессии.
Линейная регрессия
Регрессионный анализ - раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Проблема
Описание объекта
В нашем случае объектом исследования является совокупность наблюдений за посещаемостью WEB сайта Комитета по делам семъи и молодежи Правительства г. Москвы www.telekurs.ru/ismm. Тематика сайта – эт
Факторы формирующие моделируемое явление
Отбор факторов для модели осуществляется в два этапа. На первом идет анализ, по результатам которого исследователь делает вывод о необходимости рассмотрения тех или иных явлений в качестве переменн
Построение уравнения регрессии
Используя программное обеспечение «ОЛИМП» (которое в свою очередь использует для расчетов указанные выше принципы и формулы чем значительно облегчает нам жизнь), найдем искомое урав
Смысл модели
При увеличении количества вакансий в день, количество посетивших сайт людей будет увеличиваться . Это означает что в настоящий момент сайт не полностью удовлетворяет запросы пользователей, что необ
Общее назначение
Любой закон природы или общественного развития может быть выражен в конечном счете в виде описания характера или структуры взаимосвязей (зависимостей), существующих между изучаемыми явлениями или
Оценивание линейных и нелинейных моделей
Формально говоря, Нелинейное оценивание является универсальной аппроксимирующей процедурой, оценивающей любой вид зависимости между переменной отклика и набором независимых переменных. В общ
Регрессионные модели с линейной структурой
Полиномиальная регрессия. Распространенной “нелинейной” моделью является модель полиномиальной регрессии. Термин нелинейная заключен в кавычки, поскольку эта модель линейна
Существенно нелинейные регрессионные модели
Для некоторых регрессионных моделей, которые не могут быть сведены к линейным, единственным способом для исследования остается Нелинейное оценивание. В приведенном выше примере для скорости
Регрессионные модели с точками разрыва
Кусочно - линейная регрессия. Нередко вид зависимости между предикторами и переменной отклика различается в разных областях значений независимых переменных. Например,
Методы нелинейного оценивания
Метод наименьших квадратов Функция потерь Метод взвешенных наименьших квадратов Метод максимума правдоподобия Максимум правдоподобия и логит/пробит мод
Начальные значения, размеры шагов и критерии сходимости.
Общим моментом всех методов оценивания является необходимость задания пользователем некоторых начальных значений, размера шагов и критерия сходимости алгоритма. Все методы начинают свою работу с ос
Оценивание пригодности модели
После оценивания регрессионных параметров, существенной стороной анализа является проверка пригодности модели в целом. Например, если вы определили линейную регрессионную модель, а реальная зависим
Распределения Вейбулла - Гнеденко
Экспоненциальные распределения - частный случай так называемых распределений Вейбулла - Гнеденко. Они названы по фамилиям инженера В. Вейбулла, введшего эти распределения в практику анализа результ
Распределение Рэлея
Распределение Рэлея введено Дж. У. Рэлеем (1880) в связи с задачей сложения гармонических колебаний со спиральными фазами. Закон Рэлея применяется для описания неотрицательных величин, в частности,
Факторный анализ как метод редукции данных
Под редукцией понимается переход от многих исходных количественных признаков к пространству факторов, число которых значительно меньше числа исходных количественных признаков. Например, от исходных
Общий обзор методов факторного анализа
В основе каждого метода факторного анализа лежит математическая модель, описывающая соотношения между исходными признаками и обобщенными факторами. Перейдем к краткой характеристике этих моделей дл
Метод главных компонент
В основе модели для выражения исходных признаков через факторы здесь лежит предположение о том, что число факторов равно числу исходных признаков (k=m), а характерные факторы вообще отсутств
Центроидный метод
Этот метод основан на предположении о том, что каждый из исходных признаков aj(j = 1...m) может быть представлен как функция небольшого числа
общих факторов F1
Метод экстремальной группировки параметров
Данный метод также основан на обработке матрицы коэффициентов корреляции между исходными признаками. В основе этого метода лежит гипотеза о том, что совокупность исходных признаков может быть разби
Критерии рационального выбора числа факторов
Сколько факторов следует выделять?Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естест
Проверка качественных характеристик выборки
Будем рассматривать критерии однородности.
Любой статистически критерий проверки гипотез представляет собой средство измерения. Поэтому пользоваться им следует также квалифицированно, как
Метод минимального расстояния
Равномернаяметрика,или метрика Колмогорова, - одна из наиболее старых и наиболее часто используемых вероятностных метрик. Термин «метрика Колмогорова» в отечественной литературе ис
Проверка количественных характеристик выборки
В §1 были определены характеристики генеральной совокупности, т.е. принадлежность к одной генеральной выборке, а также среднее и первый момент.
На данном этапе имеется функция распределени
Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.
Иерархические аглом
Меры сходства
Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний.
Для придания больших весов более отдале
Методы объединения или связи
Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос — как определить расстояния между кластерами? С
Иерархический кластерный анализ в SPSS
Рассмотрим процедуру иерархического кластерного анализа в пакете SPSS (SPSS). Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), т
Определение количества кластеров
Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в процессе агломерации/разделения множества об
Итеративный процесс.
Вычисляются центры кластеров, которыми затем и далее считаются покоординатные средние кластеров. Объекты опять перераспределяются.
Процесс вычисления центров и перераспределения объектов п
Проверка качества кластеризации
После получений результатов кластерного анализа методом k-средних, следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитывают
Алгоритм BIRCH
(Balanced Iterative Reducing and Clustering using Hierarchies)
Алгоритм предложен Тьян Зангом и его коллегами.
Благодаря обобщенным представлениям кластеров, скорость кластеризаци
Алгоритм WaveCluster
WaveCluster представляет собой алгоритм кластеризации на основе волновых преобразований . В начале работы алгоритма данные обобщаются путем наложения на пространство данных многомерной решетки. Н
Алгоритмы Clarans, CURE, DBScan
Алгоритм Clarans (Clustering Large Applications based upon RANdomized Search) формулирует задачу кластеризации как случайный поиск в графе. В результате работы этого алгоритма совокупность узлов гр
Многофакторный дисперсионный анализ
Следует сразу же отметить, что принципиальной разницы между многофакторным и однофакторным ДА нет. Многофакторный анализ не меняет общую логику ДА, а лишь несколько усложняет ее, поскольку, кроме у
Биотестирование почвы
Многообразные загрязняющие вещества, попадая в агроценоз, могутпретерпевать в нем различные превращения, усиливая при этом свое токсическое действие. По этой причине оказались необх
Дисперсионный анализ в химии
ДА – совокупность методов определения дисперсности, т. е. характеристики размеров частиц в дисперсных системах. ДА включает различные способы определения размеров свободных частиц в жидких и газовы
Хотите получать на электронную почту самые свежие новости?
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Новости и инфо для студентов