Вибіркові оцінки середньої та частки. Довірчий інтервал

У статистиці використовують два типи оцінок параметрів генеральної сукупності — точкові та інтервальні.

Точкова оцінка — це значення параметра за даними вибірки: вибіркова середня та вибіркова частка.

Інтервальною оцінкою називають інтервал значень параметра, розрахований за даними вибірки для певної ймовірності, тобто довірчий інтервал. Чим менший довірчий інтервал, тим точніша вибіркова оцінка.

Якщо знайдена за даними вибірки статистична характеристика q* служить оцінкою невідомого параметра q, то чим менше абсолютна величина різниці çq -q*ç, тим точніше оцінка q* визначає параметр q. Тобто, якщо çq -q*ç<D, де D >0,то чим менше D, тим оцінка точніше. Таким чином, позитивне число D характеризує точність оцінки.

Інтервальні оцінки дозволяють встановити не тільки точність, а й надійність оцінок.

Надійністю (довірчою ймовірністю) оцінки параметру q по q* називають вірогідність g, з якою здійснюється нерівність çq -q*ç<D.

або

Звичайно надійність оцінки задається наперед (причому в якості g беруть число, близьке до одиниці. Найбільш часто задають надійність, рівну 0,95; 0,99; 0,999).

Ймовірність появи випадкової помилки вибірки при достатньо великому її обсязі підкоряється закону нормального розподілу та визначається за формулою

де g - довірча ймовірність (надійність) оцінки (значення функції й F(t) табульовані при різних значеннях t (додатки 5 і 9)).

Межі довірчого інтервалу визначаються на основі точкової оцінки та граничної помилки вибірки :

- для середньої

;

- для частки

де m — стандартна (середня) помилка вибірки;

t — квантиль розподілу ймовірностей (коефіцієнт довіри, що відповідає ймовірності g).

Під середньою помилкою вибірки розуміють таку розбіжність середньої вибіркової та генеральної сукупностей, яке не перевищує .

Граничною помилкою вибірки прийнято вважати максимально можливу розбіжність .

Довірче число t показує, як співвідносяться гранична та стандартна помилки.

Як бачимо з рис. 7.1, з імовірністю 0,683 гранична помилка не вийде за межі стандартної , з імовірністю 0,954 вона не перевищить ± 2m, з імовірністю 0,997 — ± 3m. На практиці найчастіше застосовують імовірність 0,954 (на рис. 7.1 незаштрихована частина площини).

Рисунок 7.1 - Співвідношення ймовірностей та ширини довірчих меж

Величина стандартної помилки залежить від обсягу вибірки та при достатньо великому обсязі вибірки n її можна визначити за формулою

Проте у приведеній формулі - показник коливання ознаки в генеральній сукупності, який звичайно невідомий. Але вище ми розглянули, що

причому при достатньо великих nможна прийняти

На підставі цього твердження у формулах для визначення середньої й граничної помилок замість генеральної дисперсії приймають значення вибіркової дисперсії.

При малих вибірках (n < 30 ), у розрахунках стандартних помилок використовують виправлені вибіркові оцінки та в формулу помилки вибірки вноситься поправка n/(n-1). Тобто

Квантилі t визначають за розподілом імовірностей Стьюдента. У табл. 7.1 наведено деякі значення квантилів t розподілу Стьюдента для ймовірності Pk(t) і числа ступенів свободи k = n – 1. Ймовірність Pk(t) – це довірча ймовірність, тобто ймовірність того, що помилка вибірки буде не більше заданої величини .

Для малих вибірок звичайно її значення приймають рівними 0,95, 0,99, 0,997. Іноді в таблицях дається рівень значущості a=1-Pk(t), відповідно рівний 0,05, 0,01, 0,003

Таблиця 7.1 - Квантилі t-розподілу Стьюдента (витяг)

kPk(t)	0,95	0,99	0,997
	2,776 2,262 2,145 2,086	4,604 3,250 2,977 2,845	6,435 4,024 3,583 3,376

Таким чином, на основі табличної величини t та розрахованого значення визначають довірчій інтервал

В теорії вибіркового методу розглядаються два способи відбору: повторний та бесповторный.

Якщо генеральна сукупність обмежена й проводиться бесповторный відбір, то при розрахунку помилки вибірки слід враховувати частку вибіркової сукупності в генеральній D=n/N. При цьому розмір граничної помилки середньої величини та частки обчислюється по наступних формулах для відбору:

повторного

бесповторного

Якщо при вибірковому спостереженні вивчається альтернативна ознака, то стандартна помилка вибірки альтернативної ознаки визначається за формулою

де pq- дисперсія альтернативної ознаки в генеральній сукупності.

Оскільки pq- невідомо, то на практиці її замінюють дисперсією вибіркової сукупності d*(1-d) йформула приймає вигляд

Гранична помилка вибірки для альтернативної ознаки визначається по формулах, аналогічних приведеним вище для кількісної ознаки.

В статистичному аналізі часто виникає потреба в порівнянні помилок вибірки різних ознак або однієї й тієї ж ознаки в різних сукупностях. Таке порівняння здійснюють за допомогою коефіцієнтів варіації вибіркових оцінок (інша назва - відносна помилка вибірки)

або

де - коефіцієнт варіації ознаки х.