Статистические распределения и их основные характеристики

Типы распределений

Различают дискретные и непрерывные вероятностные распределения. Дискретное распределение характеризуется тем, что оно сосредоточено в конечном или счетном числе точек. Непрерывное распределение "размазано" по некоторому вещественному интервалу.

При обработке выборочных данных, в силу случайной природы процесса получения выборки, важно знать, каким вероятностным законам подчиняются выборочные значения исследуемого экономического показателя. Существует целый ряд распределений вероятности, которые играют роль эталона в статистических выводах. Это прежде всего равномерное распределение, нормальное распределение (распределение Гаусса) и распределение Стьюдента (t-распределение).

 

Общие принципы представление законов распределения случайной величины

В общем случае, разбивая интервал значений непрерывной величины (, х2,) на два интервала (, х1,) и (х1 х2) (одновременные попадания случайной величины в которые являются взаимоисключающими событиями), получаем:

Рrоb{≤Х< x1} + Рrоb{х1 ≤Х< х2,} = Рrоb{≤Х< х2,}.

Отсюда находим, что искомая вероятность попадания непрерывной случайной величины в интервал х1≤X<х2 равна разности функций распределения этой случайной величины:

Рrоb{x1≤Х< х2,} = Рrоb{ ≤Х< х2,} = Рrоb{≤Х<x1}≡Fx(x2)-Fx(x1).

Проводя такие же рассуждения, мы можем найти вероятность попадания непрерывной случайной величины в бесконечно малый интервал х≤X < х+dх:

В последних двух равенствах используется определение бесконечно малого изменения функции распределения (или дифференциала этой функции). Из найденного соотношения видно, что вероятность попадания непрерывной случайной величины в бесконечно малый интервал х≤Х<х+dх бесконечна мала и пропорциональна величине этого интервала . Отношение этой бесконечно малой вероятности к бесконечно малой величине интервала имеет конечное значение и характеризует плотность вероятности в точке х.

Плотность распределения вероятности:

или наоборот:

На рис. 8 приведен характерный график плотности вероятности, а на рис. 9 - график соответствующей функции распределения.

Рис. 8 Рис.9

Наклон графика функции распределения характеризует плотность вероятности (чем больше плотность вероятности, тем быстрее меняется функция распределения) (точнее f(х) = tg(α)), а площадь под графиком функции плотности вероятности на интервале х1≤X<х2 характеризует вероятность попадания непрерывной случайной величины в соответствующий интервал.

При этом суммарная площадь под графиком функции плотности вероятности на всем интервале - Х<равна по определению единице:

Равномерное распределение

Если значения случайной величины из некоторого интервала можно считать равновероятными, то мы приходим к равномерному распределению случайной величины. Равномерное распределение - это такое распределение вероятности, плотность которого постоянна в заданном интервале изменения случайной величины X: a≤Х≤b. Равномерно распределенная случайная величина обозначается R(а,b). Там, где встречается R без указания параметров, подразумевается стандартное равномерное распределение на интервале 0≤Х≤1: R(0,1).

Плотность вероятности равномерного распределения на интервале [а, b] постоянна на этом интервале:

 

а функция распределения:

Для равномерного распределения .

Соответствующие этим функциям графики приведены на рисунке 7.

 

Рис. 7. Плотность распределения и функция распределения равномерного распределения

На примере равномерного распределения проще всего показать как графически и аналитически рассчитывать вероятность попадания в заданный интервал, т.е. Рrоb{х, ≤ Х< х2}, используя соотношение между плотностью распределения и функцией распределения. Подобно тому, как масса физического тела, равномерно распределенная по объему, находится как произведение плотности (массы в единице объема) на объем, так и вероятность попадания равномерно распределенной случайной величины в заданный интервал равна произведению плотности вероятности на длину интервала, и, таким образом, величина вероятности линейно растет с увеличением длины интервала (внутри области определения [а,b]).

Нормальное распределение

Параметры распределения значений величин характеризуют распределение в целом. Функциональный вид распределения случайной величины позволяет получить полную информацию о вероятности реализации случайной величины в любом заданном интервале значений.

В экономической практике значительная часть событий представляет собой сумму большого числа независимых или слабо зависимых событий-величин (например, приход каждого покупателя в магазин и приобретение им некоторой совокупности товаром), дисперсии которых малы по сравнению с дисперсией всей суммы (например, при контроле качества суммарная погрешность есть результат неучтенного совместного воздействия целого ряда причин, каждая из которых дает малый вклад в ошибку измерений). Распределения таких случайных величин больше частью бывают неизвестны и в то же время при весьма общих дополнительных условиях они хорошо аппроксимируются нормальным распределением (причем совершенно неважно, по какому закону распределен каждый из вкладов в отдельности). Этим объясняется широкое распространение последнего. Нормальное распределение применяется и в тех случаях, когда истинный закон распределения известен, но вычисления по этому закону затруднительны, а аппроксимация его нормальным распределением допустима. Таким образом, наиболее часто встречающимся в социально-экономических процессах является нормальное или Гауссово распределение.

В экономической практике нормальный закон распределения часто встречается: объем продаж в конкурентной отрасли или в промышленности в целом, суммарные инвестиции, суммарное потребление домашних хозяйств и тому подобные величины, имеющие аддитивную природу, то есть складывающиеся из многих малых взаимно независимых величин.

Основная особенность случайной величины состоит в том, что нельзя предвидеть, какое значение она примет в результате испытания. Однако при достаточно большом числе испытаний поведение суммы независимых случайных величин почти утрачивает случайный характер и становится почти закономерным. При увеличении числа слагаемых в сумме противоположные случайные колебания отдельных величин сглаживаются и распределение вероятностей суммы становится весьма простым, приближаясь при определенных условиях к нормальному распределению.

Рассмотрим основные свойства нормального распределения. Главное из них - если ряд случайных величин (Х1, Х2, ... , Хn) имеет нормальное распределение, то их сумма (X1,+Х2 +...+ Хn) или любая линейная комбинация (α,Х1 + α2Х2 + ... + αnXn) также будет иметь нормальное распределение.

Нормальное распределение одной случайной величины X характеризуется лишь двумя параметрами: средним значением, обычно обозначаемым ц, и стандартным отклонением, обычно обозначаемым а. Это обычно обозначают так: Х= N(μ,σ).

Распределение величины , представляющей собой взвешенную сумму n независимых нормально распределенных случайных величин Хk=N(μkk) с параметрами μk, и σk, также будет иметь нормальное распределение с параметрами и .

В частности, если все сk = 1/n, все μk, и σk, одинаковы и равны μ1, и σ1, соответственно, то μ= μ1, а σk=. Обозначая , имеем, таким образом, , . Отсюда видно, что разброс среднего арифметического независимых нормально распределенных случайных величин стремится к нулю при неограниченном увеличении числа этих величин. Если, например, взята достаточно большая репрезентативная выборка населения, то средний доход в выборке почти наверняка окажется близким к действительному среднему доходу населения.

График плотности вероятности нормального распределения имеет типичный колоколообразный вид и показан на рис. 10.

Рис. 10. Функция плотности вероятности нормального распределения

Максимум этой функции находится в точке х =μ, а "растянутость" вдоль оси X определяется параметром σ. Чем меньше значение этого параметра, тем более острый и высокий максимум имеет плотность нормального распределения. Аналитически плотность вероятности нормального распределения на интервале (Х<):

а функция распределения:

.

Плотность нормального распределения достаточно быстро (экспоненциально) убывает при удалении х от среднего значения μ.

При оценивании параметров и проверке гипотез чаще применяют другое распределение, являющееся по сути выборочным аналогом нормального распределения и переходящее в него при бесконечно большом числе наблюдений. Это распределение называют распределением Стьюдента или t -распределением.

Распределение Стьюдента

Основными отличительными особенностями распределения Стьюдента является:

Во- первых, аналогом безразмерной величины z - статистики, определяемой выражением z =(x-μ)/σ, служит также безразмерная величина t=(x-μ)/s. В этом выражении вместо стандартного отклонения для генеральной совокупности устоит выборочное стандартное отклонение s, являющееся, по сути, случайной величиной (меняющейся от выборки к выборке) и определяемое поданным наблюдений хk с помощью выражения:

Здесь выборочное среднее обозначено , а через n обозначено число наблюдений.

Во-вторых, в отличие от стандартного нормального распределения, являющегося функцией лишь одной переменной z, t-распределение является не только функцией переменной t, но также зависит от еще одного параметра - числа степеней свободы v. Число степеней свободы равно общему числу наблюдений, уменьшенному на число линейных связей между ними. Если n выборочных наблюдений связаны 5 линейными уравнениями, то их распределение имеет v = n-s степеней свободы. Линейной связью является, например, формула расчета выборочного среднего и если выборочное среднее входит в формулу какой-либо статистики, то это уменьшает число степеней свободы на единицу.

Распределение Стьюдента имеет случайная величина, равная отношению двух независимых случайных величин: стандартной нормально распределенной величины Z (с нулевым средним значением и единичной дисперсией) и величины , выражающейся через случайную величину, имеющую распределение с n степенями свободы. Распределение (хи - квадрат, или распределение Пирсона), имеет сумма квадратов n независимых стандартных нормально распределенных случайных величин (с нулевыми средними значениями и единичными дисперсиями). Вводя новую случайную величину:

получим для нее t-распределение Стьюдента с n степенями свободы с плотностью вероятности:

.

График функции плотности вероятности распределения Стьюдента (рис. 11), как и стандартного нормального распределения, имеет симметричный колоколообразный вид, но является более "сплюснутым" по вертикали.

Из симметричности распределения Стьюдента вытекает важное соотношение между критическими точками этого распределения:

.

Рис. 11. Плотность распределения Стьюдента

На практике обычно используют не таблицы функции распределения Стьюдента F(z), а таблицы критических точек функции распределения Стьюдента, то есть точек с заданной вероятностью попадания в начинающиеся от них "хвосты" распределения.

Распределение Стьюдента используется, например, при проверке гипотез:

· о среднем значении нормальной генеральной совокупности при неизвестной дисперсии;

· о линейной независимости двух случайных величин (равенстве нулю коэффициента корреляции) - см. ниже в этой главе;

· о статистической значимости коэффициента линейной регрессии.