Ошибки выборки

Ошибка выборки— это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности. Она зависит от ряда факторов: степени вариации изучаемого признака, численности выборки, методом отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.

Для репрезентативности выборки важно обеспечить случайность отбора, с тем, чтобы все объекты генеральной совокупности имели равные вероятности попасть в выборку. Для обеспечения репрезентативности выборки применяют следующие способы отбора:

· собственно-случайная (простая случайная) выборка (последовательно отбирается первый случайно попавшийся объект);

· механическая (систематическая) выборка;

· типическая (стратифицированная, расслоенная) выборка (объекты отбираются пропорционально представительству различных типов объектов в генеральной совокупности);

· серийная (гнездовая) выборка.

Отбор единиц в выборочную совокупность может быть повторным или бесповторным. При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. При бесповторном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует

Выборочное наблюдение всегда связано с ошибкой, поскольку число отобранных единиц не равно исходной (генеральной) совокупности. Случайные ошибки выборки обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Поэтому получаемые случайные ошибки должны быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка таких ошибок и является основной задачей, решаемой в теории выборочного наблюдения. Обратной задачей является определение такой минимально необходимой численности выборочной совокупности, при которой ошибка не превысит заданной величины. На выработку навыков в решении этих задач и направлен материал данного раздела.

Собственно-случайная выборка. Ее суть заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

После проведения отбора с использованием одного из алгоритмов, реализующих принцип случайности, или на основе таблицы случайных чисел, определяются границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной собственно-случайной выборки определяется по формуле

где σ - среднее квадратическое отклонение изучаемого признака;

n — объем (число единиц) выборочной совокупности.

Предельная ошибка выборки связана с заданным уровнем вероятности. При решении представленных ниже задач требуемая вероятность составляет 0,954 (t = 2) или 0,997 (t = 3). С учетом выбранного уровня вероятности и соответствующего ему значения t предельная ошибка выборки составит:

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:

При определении границ генеральной доли при расчете средней ошибки выборки используется дисперсия альтернативного признака, которая вычисляется по следующей формуле:

где w — выборочная доля, т. е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака.

При решении отдельных задач необходимо учитывать, что при неизвестной дисперсии альтернативного признака можно использовать ее максимально возможную величину, равную 0,25.

Пример. В результате выборочного обследования незанятого населения, ищущего работу, проведенного на основе собственно-случайной повторной выборки были получены данные, приведенные в табл. 1.14.

Таблица 1.14

Результаты выборочного обследования незанятого населения

Возраст, лет до 25 25-35 35-45 45-55 55 и более
Численность лиц данного возраста

С вероятностью 0,954 определите границы:

а) среднего возраста незанятого населения;

б) доли (удельного веса) лиц, моложе 25 лет, в общей численности незанятого населения.

Решение. Для определения средней ошибки выборки необходимо, прежде всего, определить выборочную среднюю величину и дисперсию изучаемого признака. Для этого, при ручном способе расчета целесообразно построить таблицу 1.15.

Таблица 1.15

Расчет среднего возраста незанятого населения и дисперсии

Возраст, лет x Численность лиц данного возраста f Середина интервала x xf x2f
До 25 25-35 35-45 45-55 55 и более
Итого -

На основании данных таблицы рассчитываются необходимые показатели:

· выборочная средняя величина:

;

· дисперсия:

· среднеквадратичное отклонение:

.

Средняя ошибка выборки составит:

года.

Определим с вероятностью 0,954 (t = 2) предельную ошибку выборки:

года.

Установим границы генеральной средней: (41,2 - 1,6) (41,2+1,6 ) или:

39.6 42.8

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний возраст незанятого населения, ищущего работу, лежит в пределах от 40 до 43 лет.

Для ответа на вопрос, поставленный в пункте «б» данного примера, по выборочным данным определим долю лиц в возрасте до 25 лет и рассчитаем дисперсию доли:

.

Рассчитаем среднюю ошибку выборки:

Предельная ошибка выборки с заданной вероятностью составит:

Определим границы генеральной доли:

или

Следовательно, с вероятностью 0,954 можно утверждать, что доля лиц в возрасте до 25 лет в общей численности незанятого населения находится в пределах от 3,9 до 1 1,9%.

При расчете средней ошибки собственно-случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

где N - объем (число единиц) генеральной совокупности/

Необходимый объем собственно-случайной повторной выборки определяется по формуле:

.

Если отбор бесповторный, то формула приобретает следующий вид:

Полученный на основе использования этих формул результат всегда округляется в большую сторону до целого значения.

Пример.Необходимо определить, сколько учащихся первых классов школ района необходимо отобрать в порядке собственно-случайной бесповторной выборки, чтобы с вероятностью 0,997 определить границы среднего роста первоклассников с предельной ошибкой 2 см. Известно, что всего в первых классах школ района обучается 1100 учеников, а дисперсия роста по результатам аналогичного обследования в другом районе составила 24.

Решение. Необходимый объем выборки при уровне вероятности 0,997 (t = 3) составит:

Таким образом, для получения данных о среднем росте первоклассников с заданной точностью необходимо обследовать 52 школьника.

Механическая выборка. Данная выборка заключается в отборе единиц из общего списка единиц генеральной совокупности через равные интервалы в соответствии с установленным процентом отбора. При решении задач на определение средней ошибки механической выборки, а также необходимой ее численности, следует использовать приведенные выше формулы, применяемые при собственно-случайном бесповторном отборе.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке — каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. Эта выборка применяется в тех случаях, когда единицы генеральной совокупности объединены в несколько крупных типичных групп. Отбор единиц в выборку производится внутри этих групп пропорционально их объему на основе использования собственно-случайной или механической выборки (при наличии необходимой информации отбор также может производиться пропорционально вариации изучаемого признака в группах).

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Средняя ошибка типической выборки определяется по формулам:

(повторный отбор);

(бесповторный отбор),

где - средняя из внутригрупповых дисперсией.

Пример. В целях изучения доходов населения по трем районам области сформирована 2%-ная выборка, пропорциональная численности населения этих районов. Полученные результаты представлены в табл. 16.

Таблица 16

Результаты выборочного обследования доходов населения

Район Численность населения, чел. Обследовано, чел. Доход в расчете на 1 человека
средняя, тыс. руб. дисперсия
I II III 2,9 2,5 2,7 1,3 1,1 1,6

Необходимо определить границы среднедушевых доходов населения по области в целом при уровне вероятности 0,997.

Решение. Рассчитаем среднюю из внутригрупповых дисперсий:

Средняя и предельная ошибки выборки:

Рассчитаем выборочную среднюю:

тыс. руб.

В результате проведенных расчетов с вероятностью 0,997 можно сделать вывод, что среднедушевые доходы жителей данной области находятся в следующих границах (тыс. руб.):

При определении необходимого объема типической выборки учитывается средняя из внутригрупповых дисперсий:

(повторный отбор);

(безповторный отбор).

Полученное значение общего объема выборки необходимо распределить по типическим группам пропорционально их численности, чтобы определить, какое количество единиц следует отобрать из каждой группы:

где Ni — объем i-и группы;

n, - объем выборки из /-и группы.

Серийная выборка. Эта выборка используется в тех случаях, когда единицы изучаемой совокупности объединены в небольшие равновеликие группы или серии. Единицей отбора в этом случае является серия. Серии отбираются с использованием собственно-случайной либо механической выборки, а внутри отобранных серий обследуются все без исключения единицы.

В основе расчета средней ошибки серийной выборки лежит межгрупповая дисперсия:

(повторный отбор);

(бесповторный отбор),

где xi - число отобранных i - серий;

R - общее число серий.

Межгрупповую дисперсию при равновеликих группах вычисляют следующим образом:

где хi — средняя i-и серии;

х — общая средняя по всей выборочной совокупности.

Пример. В целях контроля качества комплектующих из партии изделий, упакованных в 50 ящиков по 20 изделий в каждом, была произведена 10%-ная серийная выборка. По попавшим в выборку ящикам среднее отклонение параметров изделия от нормы соответственно составило 9 мм, 11, 12, 8 и 14 мм. С вероятностью 0,954 определите среднее отклонение параметров по всей партии в целом.

Решение. Выборочная средняя:

мм.

Величина межгрупповой дисперсии:

С учетом установленной вероятности Р = 0,954 (t = 2) предельная ошибка выборки составит:

мм.

Произведенные расчеты позволяют заключить, что среднее отклонение параметров всех изделий от нормы находится в следующих границах:

Для определения необходимого объема серийной выборки при заданной предельной ошибке используются следующие формулы:

(повторный отбор);

(безповторный отбор).