Сущность и порядок проведения простой и аналитической группировки

Аналитическая группировка, при которой статистическая совокупность разбивается на однородные группы по одному какому-либо факторному признаку, называется простой. Например, группировка по дозам удобрений для выявления связи этого фактора с урожайностью культур, трудоемкостью, себестоимостью единицы продукции и другими результативными признаками.

Цель простой аналитической группировки заключается в выявлении наличия или отсутствия взаимосвязи между каким-либо одним существенным факторным (группировочным) признаком и одним или несколькими результативными признаками.

Простая аналитическая группировка проводится в следующем порядке:

1. По имеющейся статистической совокупности (генеральной или выборочной) устанавливают факторный и результативные признаки. При необходимости варианты этих рассчитывают, используя метод относительных или средних величин. Например, в результате статистического наблюдения получены данные о размере посевных площадей и валовом сборе продукции. В качестве основания группировки придется, допустим, использовать урожайности культуры. Следовательно, по каждой единице совокупности необходимо рассчитать урожайность, которая и будет группировочным признаком.

2. По группировочному признаку, например, урожайности, рассчитывают коэффициент вариации и оценивают однородность статистической совокупности по этому признаку. Целесообразно отметить, что если коэффициент вариации группировочного признака не превышает 10 %, то статистическая совокупность по этому признаку считается однородной, а распределение группировочного признака может быть близко к нормальному. Такая оценка необходима для выбора интервальных промежутков в группах.

3. Рассчитывают оптимальное число групп по факторному (группировочному) признаку. По достаточно большой однородной статистической совокупности количество групп ориентировочно можно рассчитать по следующей формуле

(8.1)

где n – число единиц в статистической совокупности.

Допустим, однородная выборочная совокупность начинает 100 статистических единиц. Тогда расчётное число групп составит:

(приближенно 8 групп). Это означает, что максимальное число групп, которые предлагается сформировать по однородной статистической совокупности, составит не более 8. Такое число групп получить действительную точечную оценку основных статистических характеристик в генеральной совокупности, т.е. обеспечит репрезентативность статистической группировки.

Формальный подход групп с равными интервалами нередко приводит к неоправданному дроблению статистической совокупности, в результате чего различия между интервальными группами могут оказаться малосущественными. Вследствие этого разница в значениях результативных признаков при переходе от группы к группе "размывается", слабо прослеживается. Это означает, что выводы полученные на основе данных такого рода аналитической группировки, нельзя признать достаточно обоснованными.

По однородной статистической совокупности, где коэффициент вариации группировочного признака превышает 33,3 %, число групп принимается обычно не более, чем по однородной. В тех случаях, когда выборочная статистическая совокупность невелика (20-30единиц), целесообразно установить минимальное число групп (3-4). При этом необходимо следить, чтобы каждая группа была достаточно представительной по числу единиц ( не менее 5).

4. Определяют размеры интервалов для каждой группы по основанию группировки (группировочному признаку). Величина (размер) интервала представляет собой разность между его верхней и нижней границами. В простой аналитической группировке могут иметь место как равные так и неравные интервалы. Величину равных интервалов рассчитывают, как правило, по достаточно большой однородной совокупности:

(8.2)

где ix – величина равного интервала по группировочному признаку х, Rх – размах вариации группировочного признака; Nх – число групп в простой аналитической группировке.

Например, необходимо найти размер равного интервала для проведения аналитической группировки по дозам органических удобрений в 100 крестьянских хозяйствах, где эти дозы колебались от 10 до 90 т/га. В нашем примере размах вариации по дозам удобрений

Rх = Хп –Х1 =90-10=80 т/га; число групп Nх =1+3,322 lgn =1+3,322 lg 100 ≈ 8; размер равного интервала (по формуле 8.2) составит:

т/га

Простая аналитическая группировка с неравными интервалами может проводится в тех случаях, когда статистическая совокупность может быть довольно большой по числу единиц, но по основанию (группировочному признаку) считается неоднородной (Vx >10,0 %). Кроме того, неравные интервалы могут применяться и в тех случаях, когда выборочная статистическая совокупность состоит из небольшого числа (20-30) единиц.

Неравные интервалы в аналитических группировках обычно увеличиваются при переходе к большим значениям признака. Например, в системе АПК могут быть выделены следующие группы перерабатывающих предприятий по числу работников: до 50; 51-100; 101-200; 201-500; 501-1000; 1001 и более человек.

Группировочные интервалы могут быть открытыми и закрытыми. Открытыми считаются интервалы, у которых указана одна граница: верхняя – у первого, нижняя – у последнего интервала статистической группировки. Закрытыми называют интервалы группировки, у которых обозначены обе границы интервалов. В приведенном выше примере по числу работников использованы открытые интервалы (до 50; 1001 и более); остальные интервалы – закрытые.

5.Определяют нижнюю и верхнюю границы интервалов по основанию группировки (группировочному признаку) в каждой группе. Нижней границей (началом) первой интервальной группы обычно является минимальное значение признака в статистической совокупности. Верхняя граница первой группы рассчитывается как сумма нижней границы и размера интервала .В свою очередь в качестве нижней границы второй интервальной группы принимают верхнюю границу первой группы, в качестве верхней границы той же группы берут сумму ее нижней границы и интервала. Граниты каждой последующей интервальной группы рассчитывают аналогичным образом.

Пример. Для расчета границ интервальных групп воспользуемся данными приведенными выше (п.4), где был найден равный интервал по дозам органических удобрений (10т/га) в 100 крестьянских хозяйствах; расчетное число групп равно 8, а минимальная доза органических удобрений составила 10 т/га. Таким образом, формирование всех 8 интервальных групп можно представить следующим образом:

1.10 – (10+10); 10– 20 т/га.

2.20,1 – (20+10); 20,1 –30

3.30,1– (30+10); 30,1 –40

4.40,1– (40+10); 40,1 –50

5.50,1– (50+10); 50,1 –60

6.60,1– (60+10); 60,1 –70

7.70,1– (70+10); 70,1 –80

8.80,1– (80+10); 80,1 –90

При формировании интервальных групп с неравными интервалами обычно используют прием вторичной группировки, который может быть применен для формирования новых интервальных групп на основе ранее проведенной (первично ) группировки. Необходимость в перегруппировке данных не возникает в тех случаях, когда результаты первичной группировки не в состоянии обеспечить несмещенную оценку основных статистических характеристик из-за малочисленности локальных частот в некоторых группах.

Перегруппировка результатов первичной группировки проводится двумя способами: во-первых, путем изменения величины интервалов; во-вторых, путем изменения частостей в интервальном ряду. Применение приема вторичных группировок основывается на предположении о том, что внутри интервальных групп значения признака распределены более-менее равномерно.

Допустим, в приведенном выше примере имеется целесообразность укрупнить, 8 интервальных групп и на их основании сформировать, на примере четыре группы. В этом случае один из возможных вариантов формирования новых интервальных групп базируется на объединении приведенных в предыдущем примере второй и третьей, четвертой и пятой, шестой, седьмой и восьмой групп. В результате такого преобразования вторичная группировка крестьянских хозяйств по позам органических удобрений выглядит следующим образом:

1. 10 - - 20 т/га.

2. 20,1 - - 40 -"- .

3. 40,1 - - 60 -"- .

4. 60,1 - - 90 -"- .

Второй способ преобразования данных первичной группировки основан на изменении числа единиц (вариант) в каждой группе. Необходимость применения этого способа может быть обусловлена недостаточной локальной представительностью отдельных интервальных групп в первичной группировке. Значит, для повышения репрезентативности результатов аналитической группировки целесообразно укрупнить отдельные интервальные группы за счет переформирования смежных групп. Совершенно очевидно, что в результате такой перегруппировки может быть сформирована вторичная группировка с неравными интервалами.

6. Для проведения простой аналитической группировки обычно составляют вспомогательную (рабочую) таблицу, в которой целесообразно разместить следующие данные: № № интервальных групп, группы по принятому основанию (группировочному признаку) с указанием нижней и верхней границы в казной интервальной группе, частотные знаки и в каждой группе, суммарные (итоговые) абсолютные показатели как по факторному, так и результативным признакам. Например, по каждому из 100 крестьянских хозяйств собрана информация о количестве внесенных в почву органических удобрений, посевной площади, валовом сборе картофеля и затратах трупа по возделыванию культуры. Необходимо с помощью простой аналитической группировки выявить взаимосвязь доз органических удобрений с урожайностью и трудоемкостью производства картофеля в крестьянских хозяйствах.

Совершенно очевидно, что за основание группировки необходимо принять дозы органических удобрений (факторный существенный признак), так как эти дозы, без сомнения, могут оказывать влияние на урожайность и трудоемкость производства картофеля.

Расчет доз органических удобрений по каждому крестьянскому хозяйству показал, что они изменяются в пределах от 10 до 90 т/га, а коэффициент вариации по дозам составил 39,2 %, т.е. статистическая совокупность по группировочному признаку оказалась неоднородной. Это означает, что интервальные группы могут быть сформированы, возможно как с равными, так и с неравными интервалами.

Первичная группировка крестьянских хозяйств по дозам удобрений показала, что расчленение статистической совокупности, состоящей из 100 хозяйств, на 8 расчетных групп (по формуле 8.1) приводит к недостаточной представительности некоторых интервальных групп. Поэтому целесообразно применить прием вторичной группировки путем изменения величины интервалов, благодаря чему сформировано 4 укрупненные интервальные группы с неравными интервалами и достаточной представительностью каждой группы, что видно из данных табл. 8.1.

 

Т а б л и ц а 8. 1. Вспомогательные материалы для проведения простой