Первичный статистический анализ данных

 

Первичный статистический анализ имеющихся данных, состоящий в анализе показателей инвалидности, анализе внешних факторов и анализе взаимосвязи показателей инвалидности и внешних факторов, позволил выявить основные закономерности рассматриваемых процессов.

Результаты анализа могут быть сформулированы следующим образом.

1. По характеру динамики показателей инвалидности в период 1992-1994 г.г. все районы можно разделить на 4 группы:

– с постоянным ростом показателей;

– с постоянным уменьшением показателей;

– с ростом показателей в 1993 году и последующим их уменьшением;

– с уменьшением показателей в 1993 году и последующим их ростом.

Однако по коротким рядам динамики нельзя судить, отражает ли такая разбивка изменение тенденции или оно вызвано колебаниями временных рядов. Попытка описать динамику показателей инвалидности с помощью линейного тренда показала, что такое описание удовлетворительно не более чем для 10% районов. Для остальных районов линейный тренд оказался незначимым: дисперсия, объясняемая с помощью линейного тренда, оказалась меньше дисперсии, связанной с отклонениями от тренда.
Соответственно ошибка прогнозирования показателей инвалидности на основе линейного тренда (без учета воздействия внешних факторов) может превышать 60% для тех районов, где в прогнозируемом году происходит смена направления тенденции. Это подтверждает ранее сделанное предположение о невозможности использования аппарата временных рядов для решения поставленной задачи. Прогноз инвалидизации можно сделать только с учетом влияния внешних факторов на показатели инвалидности.

2. Пространственный анализ показателей инвалидности позволяет утверждать, что их законы распределения в основном отличны от нормального и, за редким исключением, могут быть хорошо описаны логнормальным распределением.

3. В имеющихся временных рядах с показателями инвалидности наблюдаются изменения по времени таких параметров распределения как математическое ожидание, дисперсия, асимметрия, эксцесс и т.п.
Следовательно, рассматриваемые временные ряды в общем случае являются нестационарными.

Например, для показателя “количество первично признанных инвалидами” наблюдается следующее изменение характеристик:

 

Характеристика 1992 год 1993 год 1994 год
Математическое ожидание 3.50 3.47 3.56
Среднеквадратическое отклонение 1.06 1.32 1.13
Мода 3.1 2.78 3.42
Медиана 3.34 3.29 3.42
Максимальное значение 10.31 12.2 9.65
Минимальное значение 2.02 1.67 1.49

Изменение характеристик для показателя “количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию”:

 

Характеристика 1992 год 1993 год 1994 год
Математическое ожидание 1.52 1.37 1.35
Среднеквадратическое отклонение 0.77 0.58 0.63
Мода 1.09 1.0 1.33
Медиана 1.27 1.25 1.26
Максимальное значение 5.55 4.35 3.78
Минимальное значение 0.71 0.51 0.61

 

По остальным показателям картина аналогичная.

Однако изменения статистических показателей в соседних точках, как правило, не являются значительными. Поэтому на коротких временных отрезках можно с известной долей приближения рассматривать временные ряды с показателями инвалидности как стационарные.

4. Корреляции между соседними точками для всех показателей инвалидности выше для интервала 1994-1993 гг., чем для интервала 1993-1992 гг. Однако эта разница не превышает 0.1. Например, для показателя “количество первично признанных инвалидами” коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96. Для показателя “количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию” коэффициент корреляции между данными за 1992 и 1993 годы равен 0.8, а между данными за 1993 и 1994 годы равен 0.87. Для показателя “количество первично признанных инвалидами вследствие общего заболевания” коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96. Анализ значений коэффициентов корреляции позволяет сделать вывод о высокой зависимости показателей инвалидности от предыстории процесса.

5. Законы распределения внешних факторов могут быть приближены либо к нормальным, либо к логнормальным распределениям. Однако для внешних факторов характер распределения является менее выраженным, во многих случаях приближение к тем или иным законам распределения является спорным.

6. Анализ корреляций внешних факторов в 1992 году позволил выделить сильно коррелирующие (коллинеарные) факторы с коэффициентом корреляции, превышающим значение 0.8. Число таких факторов оказалось незначительным.

7. Каждый показатель инвалидности коррелирует с большим числом внешних факторов, причем коэффициенты корреляции при этом редко превышают 0.5. Например, показатель “количество женщин из числа первично признанных инвалидами” за 1993 год коррелирует с 20-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.48); показатель “количество инвалидов-военных из общего числа признанных инвалидами” за 1993 год коррелирует с 30-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.7; для пяти факторов коэффициент корреляции превышает 0.5); показатель ”количество инвалидов детства из общего числа признанных инвалидами” за 1993 год коррелирует с 24-мя внешними факторами за 1992 год (максимальный коэффициент корреляции 0.58; для одного фактора коэффициент корреляции превышает 0.5). По остальным показателям данные аналогичные.

8. Степень взаимосвязи внешних факторов с показателями инвалидности во времени для разных факторов изменяется по-разному. Для некоторых факторов наиболее сильна взаимосвязь в текущем году, а в последующие годы она уменьшается. Например, для значений показателя “число женщин из числа первично признанных инвалидами”, взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора “удельный вес автомобильных дорог с твердым покрытием” за 1992 год соответствующие коэффициенты корреляции равны -0.58, -0.38, -0.33.

Для других факторов наблюдается обратная зависимость: наиболее слабая взаимосвязь в текущем году, в последующие годы она увеличивается. Например, для значений показателя “количество первично признанных инвалидами вследствие общего заболевания”, взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора “продажа всех видов алкогольных напитков в расчете на душу населения” за 1992 год соответствующие коэффициенты корреляции равны 0.3, 0.31, 0.36.

Для третьих факторов взаимосвязь наиболее сильная на следующий год: связь 1992-1993 годов больше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя “число женщин из числа первично признанных инвалидами”, взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора “оборудование городского, государственного, общественного жилищного фонда и фонда ЖСК газом” за 1992 год соответствующие коэффициенты корреляции равны 0.24, 0.32, 0.31.
Такого рода закономерности могут быть связаны с тем, что влияние одних факторов на показатели инвалидности проявляется сразу же, в текущем году, а влияние других сказывается на следующий год или через год.

Для четвертых факторов наиболее слабая взаимосвязь наблюдается на следующий год: связь 1992-1993 годов меньше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя “число женщин из числа первично признанных инвалидами”, взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора “число родившихся на 1000 человек населения” за 1992 год соответствующие коэффициенты корреляции равны 0.43, 0.22, 0.27.

9. Парные коэффициенты корреляции внешних факторов с показателями инвалидности с лаговым интервалом в один год (значения факторов взяты за предыдущий год относительно значений показателей инвалидности) могут значительно изменяться со временем. Например, для показателя “количество инвалидов 3 группы из числа первично признанных инвалидами”:

 

  Внешние факторы
Лаговый интервал: Удельный вес городского населения Денежные доходы на душу населения Кол-во легковых автомобилей на 1000 человек
1992-1993 г.г. – 0.256 – 0.354 – 0.315
1993-1994 г.г. – 0.363 – 0.462 – 0.415
1994-1995 г.г. – 0.351 – 0.441 – 0.466