Ошибки выборочного наблюдения

Ошибки выборочного наблюдения. При любом наблюдении могут происходить ошибки при регистрации единиц. В зависимости от объекта, субъекта и способа наблюдения эти ошибки могут возникнуть из-за сообщения ошибочных сведений объектом, неточной фиксации сообщаемых сведений субъектом наблюдения, неточного подсчета или измерения фиксируемых признаков при непосредственном наблюдении.

Эти ошибки называются ошибками регистрации. Возможны случайные и систематические ошибки регистрации.

При несплошном наблюдении, в частности при выборочном, кроме ошибок регистрации возможны так называемые ошибки репрезентативности (представительности), которые возникают в связи с тем, что отобранная для обследования часть совокупности имеет по изучаемому признаку иную структуру, чем совокупность в целом. Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки возникают тогда, когда нарушены принципы отбора.

При выборочном обследовании их источником является нарушение принципа случайности отбора, его тенденциозность. Случайные же ошибки возможны и при совершенно правильно организованном отборе за счет того, что случайно могут отказаться отобранными единицы с характеристиками, в среднем отличными от всей совокупности. Таким образом, ошибка наблюдения (нв) является при выборочном наблюдении суммой ошибки регистрации (рв) и ошибки репрезентативности (пв), а при сплошном наблюдении ошибка наблюдения (нс) равна ошибке регистрации (рс). (Приложение №1) Исследуемая совокупность единиц называется генеральной совокупностью.

Все ее характеристики также носят название генеральных. Пусть нас интересует некоторый признак х. Его распределение в генеральной совокупности характеризуется частотами F, из которых вытекают генеральная средняя х, генеральная дисперсия D, генеральное среднее квадратическое отклонение , генеральные доли (относительные частоты и частости) р. Цель выборочного наблюдения заключается в том, чтобы, отобрав из генеральной совокупности некоторое число n единиц, обследовать их и на этой основе оценить неизвестные нам генеральные характеристики.

Совокупность отобранных единиц носит название выборочной совокупности, или просто выборки, и все ее характеристики тоже называются выборочными. Вариация признака х в выборочной совокупности характеризуется частотами f, из которых вытекают выборочная средняя х, выборочная дисперсия Dв, выборочное среднее квадратическое отклонение в = Dв, выборочные доли  = f/f. На основе теорем закона больших чисел можно утверждать, что при достаточно большом объеме выборки выборочные характеристики мало отличаются от генеральных, т.е. если n достаточно велико, то х  х;   р; Dв  D. Ошибка выборки – это абсолютная величина в разности между соответствующими выборочной и генеральной характеристиками: х - х - ошибка для средней или  - р - ошибка для доли. Как и сама выборочная характеристика, ошибка выборки является случайной величиной.

Пользуясь теоремой Ляпунова, можно указать вероятность (Р) того, что ошибка выборки не превысит некоторую заданную величину , т.е. что х - х   или  - р  . Вероятность р при этом называют доверительной вероятностью, а пределы, в которых с этой вероятностью может находится генеральная характеристика, называют доверительными пределами (или границами) этой характеристики.

Доверительные пределы генеральной средней или доли определяются на основе неравенств х – х   или  - р  , из которых следует, что х -   х  х +  или  -   р   + . Так, если при определении среднего числа дней, отработанных колхозниками за год, ошибка выборки с доверительной вероятностью р = 0,99 оказалось равной двум дням, то пределы, в которых может находиться генеральная средняя, определяется следующим образом 260 – 2  х  260 + 2 или 258  х  262, т.е. с вероятностью, равной 0,99 утверждать, что среднее число отработанных за год колхозниками района дней находится в пределах от 258 до 262. Возможные расхождения между характеристиками выборочной и генеральной совокупности измеряются средней ошибкой выборки . В математической статистике доказывается, что значения средней ошибки выборки определяются по формуле: 02  =  n На практике для определения средней ошибки выборки обычно используются дисперсии выборочной совокупности 2. n 02 = 2 ( ) n - 1 Если n достаточно велико, то отношение n/n-1 близко к единице.

При замене генеральной дисперсии 02 дисперсией выборочной 2 формула расчета средней ошибки записывается так: 2  =  n Следует иметь в виду, что эта формула применяется для определения средней ошибки выборки лишь при так называемом повторном отборе.

Поскольку при бесповторном отборе численность генеральной совокупности в ходе выборки сокращается, то в формулу для расчета средней выборки включают дополнительный множитель 1 – n/N. Формула средней ошибки выборки принимает следующий вид: 2 n  = (1 - ).  n N Для практики выборочных обследований важно, что средняя ошибка выборки применяется для установления предела отклонений характеристик выборки из соответствующих показателей генеральной совокупности небезотносительно.

Лишь с определенной степенью вероятности можно утверждать, что эти отклонения не превысят величины t  , которая в статистике называется предельной ошибкой выборки.

Предельная ошибка выборки  связана со средней ошибкой выборки  отношением:   t   При этом t как коэффициент кратности средней ошибки выборки зависит от вероятности, с которой гарантируется величина предельной ошибки выборки.

Если в формулу подставить конкретное содержание , то расчет предельной ошибки выборки при бесповторном отборе можно записать следующими алгоритмами: а) доля альтернативного признака:  (1 - ) n  = t (1 - )  n N б) средняя величина количественного признака: х2 n х = t (1 - )  n N При этом следует иметь в виду, что при сравнительно небольшом проценте единиц, взятых в выборку (до 5 %), множитель (1 – n/N) близок к единице.

Поэтому на практике при расчете величины предельной ошибки выборки (при бесповторном отборе) множитель (1 – n/N) можно опустить, и расчет производится по формулам повторного отбора, т.е.:  (1 - )  = t  n 2 х = t  n 3.