Статистическая группировка,представляет собой процесс образования однородных групп на основе расчленения (разделения) статистической совокупности на части или объединение изучаемых статистических единиц в частные совокупности по существенным для них признакам.
Группировка является методом исследования содержания изучаемого явления. На ее основе рассчитываются обобщающие показатели по группам, выявляется строение совокупности, взаимосвязи между изучаемыми признаками, а затем проводится анализ полученных результатов.
Основными категориями метода группировок являются группировочный признак (основание группировки)и интервал.
Группировочным признаком (основанием группировки)называется признак, по которому происходит выделение однородных групп. В качестве группировочного обычно выбирается один из существенных легко распознаваемых признаков, носящих как атрибутивный, так и количественный характер.
Интервал – это совокупность варьирующих значений признака в группе, он определяет количественные границы групп, а его ширина представляет собой промежуток между максимальным и минимальным значениями признака в группе.
При выполнении группировок используются следующие типы интервалов:
• равные – во всех выделенных группах ширина интервала является одинаковой;
• неравные – в каждой группе ширина интервала различна; при этом ее изменение может изменяться закономерно (например, равномерно возрастать), или произвольно, то есть быть свободной;
• закрытые - если известны верхняя и нижняя границы интервалов (максимальное и минимальное значения признака в группах);
• открытые - если известна только одна граница интервала, верхняя или нижняя.
Число групп должно быть достаточным для объективного представления изучаемой совокупности. При большом числе групп различия между ними становятся малозаметными, а в самих группах в виду их малой наполняемости перестает действовать закон больших чисел и возможно проявления случайности. При малом же их числе в одну группу могут попасть статистические единицы с существенно различающимися значениями признака.
На количество выделяемых групп влияют следующие факторы:
• уровень колеблемости группировочного признака - чем значительнее вариация признака, тем большее количество групп необходимо выделять при прочих равных условиях;
• размер изучаемой статистической совокупности - чем больше размер исследуемой совокупности, тем большее количество групп необходимо выделять.
Выделенные группы должны быть достаточно заполненными. Наличие пустых групп или малое число статистических единиц в них свидетельствуют о неправильном определении их числа.
Равные интервалы в совокупности можно сформировать по формуле:
Хmax – Хmin
I = –––––––––––––
число групп
Ориентировочночисло групп можно определить использую эмпирическую зависимость, называемую формулой Стерджесса:
m ≈ 1 + 3,322 × lg N ,
где m – количество групп;
N - численность единиц статистической совокупности.
В практических расчетах можно использовать следующие соотношения, полученные на основании формулы Стерджесса:
Таблица 3 – Оптимальное количество групп в однородной совокупности
N | 15-24 | 25-44 | 45-89 | 90-179 | 180-359 | 360 и более |
m |
Зависимость Стерджесса дает хорошие результаты, если совокупность состоит из большого числа единиц, распределение близко к нормальному, и при этом используются равные интервалы.
Существуют и другие (более сложные) способы определения оптимального числа групп в совокупности.
При выполнении группировок необходимо исходить из следующего принципа: различия между единицами, отнесенными к одной группе должны быть меньше, чем между единицами, отнесенными к разным группам.
С помощью группировок в статистике решают следующие задачи:
• изучение состава статистических совокупностей;
• выделение отдельных типов явлений внутри совокупности;
• выявление причинно-следственных связей разных признаков внутри совокупности;
• классификация единиц совокупности по множеству признаков.
Для решения указанных задач применяют разные виды статистических группировок.