Выполнение группировки по количественному признаку

При составлении структурных группировок на основе варьирующих количественных признаков необходимо определить количество групп и интервалы группировки.

Количество групп и величина интервала связаны между собой: чем больше образовано групп, тем меньше интервал, и наоборот. Количество групп зависит от числа единиц исследуемого объекта и степени колеблемости группировочного признака. При небольшом объеме совокупности нельзя образовывать большое число групп, так как группы будут малочисленными.

При определении количества групп необходимо стремится к тому, чтобы были учтены особенности изучаемого явления. Поэтому количество групп должно быть оптимальным, в каждую группу должно входить достаточно большое число единиц совокупности, что отвечает требованию закона больших чисел. Однако в отдельных случаях представляют интерес и малочисленные группы: новое, передовое, пока оно не станет массовым, проявляется в незначительном числе фактов; поэтому задача статистики — выделить эти факты, изучить их.

На количество выделяемых групп существенное влияние оказывает степень колеблемости группировочного признака: чем она больше, тем больше следует образовать групп.

Интервал - количественное значение, отделяющее одну единицу (группу) от другой, т.е. он очерчивает количественные границы групп.

Как правило, величина интервала представляет собой разность между максимальным и минимальным значениями признака в каждой группе.

Вопрос о числе групп и величине интервала следует решать с учетом множества обстоятельств, прежде всего исходя из целей исследования, значения изучаемого признака и т.д.

Ориентировочно определить оптимальное количество групп с равными интервалами можно по формуле американского ученого Стерджесса:

 

k =1+3,322 1g n, (3.1)

где n — число единиц совокупности.

Получаем следующее соотношение:

n 15-24 25-44 45-89 90-179 180-359 360-719
k

Формула Стерджесса пригодна при условии, что распределение единиц совокупности по данному признаку приближается к нормальному, и при этом применяются равные интервалы в группах.

Интервалы могут быть равные и неравные. При исследовании экономических явлений могут применяться неравные (прогрессивно возрастающие, прогрессивно убывающие) интервалы. Так, например, по численности работающих промышленные предприятия могут быть разбиты на следующие группы: до 100 человек, 100-200, 200-300, 300-500, 500-1000, 1000 и более человек. Это объясняется тем, что количественные изменения размера признака имеют не одинаковые значения в низших и высших по размеру признака группах: изменение количества работающих на 50-100 человек имеет существенное значение для мелких предприятий, а для крупных - не имеет.

Группировки с равными интервалами целесообразны в тех случаях, когда вариация проявляется в сравнительно узких границах и распределение является практически равномерным (например, при группировке рабочих одной профессии по размеру заработной платы, посевов какой-либо культуры — по урожайности).

Для группировок с равными интервалами величина интервала определяется по формуле:

 

i =(x mах - х min) / k (3.2)

x mах, х min — наибольшее и наименьшее значения признака,

k- число групп.

Если, например, требуется произвести группировку с равными интервалами по данным об уровне месячной заработной платы рабочих, которая. колеблется в пределах от 600 до 750 ден. ед., и необходимо при этом выделить 5 групп, то величина интервала, ден. ед.: i = (750 – 600) /5 = 30

Если в результате деления получится нецелое число и возникнет необходимость в округлении, то округлять нужно, как правило, в большую сторону, а не в меньшую.

Прибавляя к минимальному значению признака (в данном случае 600 ден.ед.) найденное значение интервала, получаем верхнюю границу первой группы, ден.ед.: 600 + 30 = 630.

Прибавляя далее значение интервала к верхней границе первой группы, получаем верхнюю границу второй группы: 630 + 30 = 660 и т. д.

В результате получим такие группы рабочих по размеру заработной платы, ден. ед.:

600-630; 630-660; 660-690; 690-720; 720-750.

В этом распределении имеет место неопределенность: к какой группе, например, отнести рабочего с заработком в 630 ден.ед., к первой или второй? Для устранения неопределенности открывают один из крайних интервалов или используют принцип единообразия — левое число включает в себя обозначенное значение, а правое — не включает. Значит рабочий, получающий 630 ден.ед., должен быть отнесен ко второй группе. Аналогично нужно поступать в отношении всех остальных групп.

Интервалы групп могут быть закрытыми, когда указаны (нижняя и верхняя границы (как в приведенном примере), и открытыми, когда указана лишь одна из границ (первый или последний интервалы, величина которых принимается равной величине смежных с ними интервалов). Во втором случае, чтобы показать, что рабочий с заработной платой, равной, например, верхней границе интервала, включается в последнюю группу, её следует обозначить «750 и выше». И наоборот, чтобы показать, что значение, равное верхней границе интервала, не входит в данную группу, последнюю группу нужно обозначить «свыше 750». Подобные функции выполняют слова «до», «менее» и «более».

 

Глоссарий:статистическая сводка, статистическая группировка, классификация, типологическая, структурная, аналитическая и комбинационная группировка, атрибутивный ряд распределения, варианты, величина интервала, группировочный признак, открытые и закрытые интервалы

 

Контрольные вопросы.

1. Что представляет собой первый и второй этапы стат. исследования, их значение?

2. Какие виды сводки вы знаете? Дайте их краткую характеристику.

3. Что называется стат. группировкой и группировочным признаком?

4. От чего зависит решение вопроса об определении числа групп и границ интервалов между ними?

5. Какие бывают интервалы группировок и как точно обозначить их границы? Приведите пример.

Вопросы для самоподготовки:

1. Какие задачи решает статистика при помощи метода группировок?

2. Дайте характеристику типологических, структурных и аналитических группировок. Какие задачи они решают?

3. Какие группировки называются простыми и сложными и в чем преимущество последних?


Тема 4. Способы наглядного представления статистических данных.