Статистическое распределение выборки.

Эмпирическая функция распределения/

Пусть изучается некоторая св. X. С этой целью над с. в. X про­изводится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение.

Пусть она приняла n1 раз значение x1, n2 раз — значение x2, …, nk раз — значение xk. При этом n1 + n2 +…+ nk =n— объем выборки. Значения x1, x2, …, xk называются вариантами св. X.

Вся совокупность значений с.в. X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего — упорядочению.

Операция расположения значений случайной величины (признака) по неубыванию называется ранжированием статистических дан­ных. Полученная таким образом последовательность x(1), x(2), …, x(n) значений с. в. X (где x(1) £ x(2) £ …£ x(n) и x(1) =,…, x(n) =называется вариационным рядом.

Числа ni , показывающие, сколько раз встречаются варианты xi в ряде наблюдений, называются частотами, а отношение их к объему выборки — частностями или относительными частотами i*), т.е.

(6.1)

 

где n=

Перечень вариантов и соответствующих им частот или частостей называется статистическим распределением выборки или статистическим рядом.

Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты, а вторая — их частоты ni (или частости рi*).

Пример 6.2. В результате тестирования (см. пример 6.1) группа аби­туриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда.

а) Проранжировав статистические данные (т. е. исходный ряд), получим вариационный ряд (x(1), x(2), …, x(10)):

(0, 1, 1, 2, 3, 4, 4, 5, 5, 5).

б) Подсчитав частоту и частость вариантов x1=0, x2=1, x3 =2, x4=3, x5 =4, x6 =5, получим статистическое распределение выборки) (так называемый дискретный статистический ряд)

xi
ni

или

xi
рi*

Статистическое распределение выборки является оценкой неизвестного распределения. В соответствии с теоремой Бернулли (п. 5.3) относительные частоты рi* сходятся при n → ∞ к соответствующим вероятностям рi, т.е. рi*рi. Поэтому при больших значениях п статистическое распределение мало отличается от истинного распре­деления.

В случае, когда число значений признака (с. в. X) велико или при­знак является непрерывным (т. е. когда с. в. X может принять любое значение в некотором интервале), составляют интервальный стати­стический ряд. В первую строку таблицы статистического распределе­ния вписывают частичные промежутки [x0, x1), [x1, x2), …, [xk-1, xk), которые берут обычно одинаковыми по длине: h = x1 – x0 = х2 — x1 = .... Для определения величины интервала (h) можно использовать формулу Стерджеса:

,

где хmах — xmin — разность между наибольшим и наименьшим значени­ями признака, m= 1 + log2 n — число интервалов (log2 n ≈ 3,322 lg n). За начало первого интервала рекомендуется брать величину xнач = xmin. Во второй строчке статистического ряда вписывают количество наблюдений ni (i =1,…,k), попавших в каждый интервал.

Пример 6.3. Измерили рост (с точностью до см) 30 наудачу отобран­ных студентов. Результаты измерений таковы:

178, 160, 154, 183, 155, 153, 167, 186, 163, 155,

157, 175, 170, 166, 159, 173, 182, 167, 171, 169,

179, 165, 156, 179, 158, 171, 175, 173, 164, 172.

Построить интервальный статистический ряд.

Для удобства проранжируем полученные данные:

153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165. 166. 167, 167, 169,

170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.

Отметим, что X — рост студента — непрерывная с. в. При более точном измерении роста значения с. в. X обычно не повторяются (веро­ятность наличия на Земле двух человек, рост которых равен, скажем = 1,732050808... метров, равна нулю!).

Как видим, хтiп = 153, хmах = 186; по формуле Стерджеса, при п = 30, находим длину частичного интервала

Примем h = 6. Тогда хнач = 153-= 150. Исходные данные

разбиваем на 6 (т = 1 + log230 = 5,907 ≈ 6) интервалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).

 

Подсчитав число студентов (ni), попавших в каждый из полученных промежутков, получим интервальный статистический ряд:

Рост [150-156) [156-162) [162-168) [168-174) [174-180) [180-186)
Частота
Частость 0,13 0,17 0,20 0,23 0,17 0,10

Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.

Эмпирической (статистической) функцией распределения называется функция Fn* (х), определяющая для каждого значения х частость события {X < х}:

Fn* (х)=p*{X<x}. (6.2)

Для нахождения значений эмпирической функции удобно Fn* (х) писать в виде

Fn* (х)=

где n — объем выборки, nх — число наблюдений, меньших x (x Î R) Очевидно, что Fn* (х) удовлетворяет тем же условиям, что и истинная функция распределения F(x) (см. п. 2.3).

При увеличении числа п наблюдений (опытов) относительная частота события {X < х} приближается к вероятности этого события (теорема Бернулли, п. 5.3). Эмпирическая функция распределения- Fn* (х) является оценкой вероятности события {X < х}, т.е. оценкой теоретической функции распределения F(x) с.в. X, Имеет место

Теорема 6.1 (Гливенко).Пусть F(x) — теоретическая функция рас­пределения с.в. X, а Fn* (х) — эмпирическая. Тогда для любого e > 0

lim { |Fn* (х)-F(x)|>e} = 0.

Пример 6.4.Построить функцию Fn* (х), используя условие и результаты примера 6.2.

Здесь п = 10. Имеем F*10(x) = = 0 при х£ 0 (наблюдений меньше 0 нет); F*10(x) = при 0 < х£ 1 (здесь nх = 1) и т. д. Окончательно получаем

График эмпирической функции распределения

приведен на рис. 59.