Основные способы группировки

 

Чтобы разделить совокупность на группы нужно определить: а) группировочный признак, б) число групп, на которое будет делиться совокупность, в) границы каждой группы.

Группировочный признак задается целью исследования. Если используется качественный (атрибутивный) признак, то, как правило, количество вариант вытекает из сущности признака. Соответственно количеству вариант будет равно количество групп. Если выбран количественный признак, то количество групп будет определяться либо сущностью решаемой задачи, либо расчетным путем. При этом следует учитывать число единиц в совокупности и степень колеблемости группировочного признака. Поэтому, чем меньше объем совокупности, тем меньше должно быть групп. Количество групп может быть определено либо формализованным способом, либо произвольным, исходя из условий задачи. При формализованном способе могут быть использованы формулы Стерджесса или среднее квадратическое отклонение. Так количество групп с помощью формулы Стерджесса будет равно

, (2.1)

где: – число групп;

- число единиц в совокупности.

Данная формула дает хорошие результаты при большом числе единиц в совокупности и при распределении единиц совокупности близко к нормальному распределению.

После нахождения числа групп определятся интервал группы. Интервал группы – это разница между наибольшим и наименьшим значением признака в группе. Интервал группы имеет нижнюю и верхнюю границу. Нижняя границаинтервала группыэто наименьшее значение признака в группе. Верхняя граница интервала группы – это наибольшее значение признака в группе. Например, доходы работников разделены на две группы доходов – от 1000 руб. до 3000 руб. и от 3000 руб. до 5000 руб.. Величина интервала в обеих группах равна 2000 руб. (2000 руб.=3000 руб. – 1000 руб.). Так в первой группе доход в 1000 руб. является нижней границей интервала, величина дохода в 3000 руб. является верхней границей интервала. Интервалы групп бывают равными и неравными. Последние могут быть возрастающими, убывающими, произвольными. Тип интервала определяется содержанием решаемой задачи. Форма выражения интервала группы могут быть различной. Рассмотрим отдельные варианты интервалов групп. (табл. 2.4)

Таблица 2.4

№ группы Вариант №1 Вариант №2 Вариант №3
до 200 200 – 300 300 и более 100 - 200 200 – 300 300 – 400 100 – 200 201 – 300 301 – 400

 

В первом варианте в первой и в третьей группах использованы открытые интервалы групп. Открытый интервал группы – это интервал, в котором не указана одна из границ ( верхняя или нижняя). При расчетах величина открытого интервала берется равной величине смежного с ним интервала.

Во втором варианте использованы закрытые интервалы. Закрытый интервал – это интервал, у которого указаны обе границы интервала. Этот вариант формирования интервалов нагляден, прост и предпочтителен, если условиями задачи группировки не заданы иные варианты формирования интервалов. При использование этого варианта возникает проблема отнесения конкретного значения признака к определенной группе. Например, при группировке по второму варианту (см. таблицу 2.3) возникает проблема: к какой группе отнести признак со значением 200 – к первой или ко второй. В данном случае целесообразно использовать следующее условие включения границ интервала: [100 – 200), [200 – 300), [300-400). Таким образом, признак со значением 200 будет включен во вторую группу.

В третьем варианте использован принцип разделения границ интервалов групп. Это дает возможность однозначно отнести признак с конкретным значением к определенной группе. Однако при применении этого варианта надо быть очень осторожным, т.к. это может привести к потерям единиц наблюдения, что скажется на результатах анализа. Например, в совокупности имеется единица наблюдения со значением признака равным 200,5. В результате использования варианта №3 эту единицу мы потеряет, т.к. она не попадет ни в первую, ни во вторую группу.

Равный интервал рассчитывается следующим образом

, (2.2)

где: - размах вариации совокупности;

- число групп.

Результат расчета величины интервала целесообразно округлять исходя из содержания исходной информации. Например, если группируются целые числа, то интервал должен быть округлен до целого числа, если группируются числа с определенным числом знаков после запятой (например, 3,4; 5,8; 9,2 и т.д.), то и значение интервала должно иметь тот же порядок

Размах вариации равен

, (2.3)

где - максимальное и минимальное значение единицы в совокупности.

После определения числа групп и величины равномерного интервала единицы совокупности распределятся на следующие группы (табл. 2.5)

Таблица 2.5

№ группы Интервалы групп
и т.д.

 

Группировку с неравными и произвольными интервалами можно самостоятельно изучить в учебнике [2] на стр. 82.

Рассмотрим условный пример группировки единиц совокупности с равными интервалами.

Пример.Статистическое обследование 34 индивидуальных предпринимателей показало, что они имели следующий ежедневный оборот в тыс. руб.: 5,5; 3,2; 6,1; 5,4; 3,1; 7,8; 4,5; 5,8; 5,2; 6,5; 3,8; 5,4; 4,8; 6,3; 5,6; 4,2; 4,6; 7,6; 6,8; 4,9; 5,2; 6,3; 4,1; 5,6; 7,3; 6,7; 5,4; 6,4; 5,7; 5,9; 5,6; 4,3; 7,4; 3,4.

Исходя из исходных данных задачи, число единиц в совокупности (объем совокупности) равно 34, т.о. N = 34. По формуле (4.1) определим количество групп ()

.

Так как число групп не может быть дробным, то округлим его до целого числа. Таким образом число групп будет равно 6, т.е. n =6.

Затем определим величину равного интервала по формуле

. (2.4)

Из исходных данным определим максимальное и минимальное значение варианты признака. Оно равно . Тогда величина интервала будет равна. Округлив величину интервала до одного знака после запятой, получим .

Теперь определим интервалы групп. Нижняя граница первого интервала будет равна наименьшему значению признака в совокупности, т.е. наименьшему значению ежедневного оборота, который равен 3,1. Верхняя граница интервала первой группы будет равна 3,9=3,1+0,8. Дальнейший расчет приведен в таблице 2.6.

Таблица 2.6

№ группы Интервалы групп Интервалы групп
    3,1 – 3,9 3,9 – 4,7 4,7 – 5,5 5,5 – 6,3 6,3 – 7,1 7,1 – 7,9