Использование корреляционно-регрессионной МОДЕЛИ ДЛЯ ПРОГНОЗИРОВАНИЯ ИНВАЛИДНОСТИ

 

Основой регионального прогноза инвалидности является рассмотрение инвалидности как социально-экономического процесса, характеризующегося изменяющимися во времени и в пространстве связями между показателями инвалидности и внешними факторами окружающей среды. В качестве объектов, порождающих эти процессы, можно рассматривать как территорию России в целом, так и отдельные административные территории Российской Федерации как конгломерат социально-экономических условий. Таким образом, административные территории Российской Федерации могут быть рассмотрены как большие сложные системы. При этом учитываются такие их основные свойства как стохастичность и инерционность.

Под стохастичностьюмы понимаем невозможность однозначного определения будущих значений выходных показателей инвалидности на основе информации о предыстории и о значениях внешних показателей. Это связано с рядом причин:

· с неполнотой наших знаний о механизме, порождающем инвалидность;

· со случайным поведением определенной части внешних факторов (экологических и субъективных факторов - выбросов вредных веществ в атмосферу, сбросов загрязненных сточных вод, миграции населения);

· с тем, что любая математическая модель носит приближенный
характер;

· с погрешностью исходных статистических данных.

Второе важное для построения прогноза свойство - инерционность, связанная с невозможностью резкого скачкообразного изменения показателей инвалидности в соседние моменты времени. Это обусловлено тем, что для такого изменения требуются ресурсы, которые общество выделить не в состоянии.

Поэтому при построении краткосрочного прогноза инвалидности необходимо учитывать преемственность значений показателей инвалидности в соседние периоды времени и влияние внешних факторов окружающей среды.

Дополнительный анализ взаимосвязи годовых изменений показателей внешних факторов F(t+1)-F(t) и годовых изменений показателей инвалидности y(t+1)-y(t) показал, что полученные значения парных коэффициентов корреляции оказались незначимыми для всех показателей инвалидности (приложение 6). Поэтому нельзя строить прогноз изменений показателей инвалидности как зависимость от изменений внешних факторов.

Таким образом, краткосрочный прогноз того или иного показателя инвалидности на один год вперед может быть построен в виде корреляционно-регрессионной зависимости абсолютных значений показателей инвалидности и абсолютных значений внешних факторов:

, где

y(t+1) - искомый прогноз показателя инвалидности y в следующем году;

y(t) - известное значение показателя инвалидности в текущем году;

a0 - скалярный коэффициент регрессии;

F(t) - известные значения вектора внешних факторов в текущем году;

A1- матричный коэффициент регрессии;

В силу инерционности системы можно ожидать, что характер регрессионной зависимости для прогнозируемого периода времени изменится несущественно по сравнению с текущем периодом времени.
Поэтому оценивание коэффициентов регрессии следует проводить по данным для текущего периода времени:

, где

y(t) - известные значения показателя инвалидности y в текущем году;

y(t-1) - известные значения показателя инвалидности в предыдущем году;

a0- оцениваемый скалярный коэффициент регрессии;

F(t-1) - известные значения вектора внешних факторов в предыдущем году;

A1- оцениваемый матричный коэффициент регрессии.

При построении уравнения задача состоит в выделении значимых внешних факторов, включаемых в уравнение регрессии для того или иного показателя инвалидности. Для этого необходимо вычислить и проанализировать парные коэффициенты корреляции рассматриваемого показателя инвалидности и всех имеющихся внешних факторов. Для выделения факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности, рекомендуется исследовать корреляционные зависимости со всеми имеющимися внешними факторами за последние несколько лет, а именно:

· для значений внешних факторов и значений показателей инвалидности с лагом 0: F(t)-y(t); F(t-1)-y(t-1); F(t-2)-y(t-2);

· для значений внешних факторов и значений показателей инвалидности с лагом 1: F(t-1)-y(t); F(t-2)-y(t-1); F(t-3)-y(t-2);

· для значений внешних факторов и значений показателей инвалидности с лагом 2: F(t-2)-y(t); F(t-3)-y(t-1).

Анализ имеющихся статистических данных показал, что наблюдается устойчивая связь показателей инвалидности и внешних факторов в основном при парных коэффициентах корреляции Ryf>0.3. Причем такая взаимосвязь прослеживается на протяжении нескольких лет.
Таким образом, в регрессионную модель вначале следует включить те внешние факторы, которые имеют значимые парные коэффициенты корреляции с рассматриваемым показателем инвалидности в течение последних нескольких лет. Не следует включать в модель те внешние факторы, для которых коэффициенты корреляции либо оказались незначимыми для всех рассматриваемых периодов, либо оказались значимыми для одних периодов и незначимыми для остальных периодов времени.

После выделения факторов-кандидатов на включение в уравнение регрессии следует оценить степень их взаимосвязи. Для этого строится матрица взаимных корреляций по внешним факторам. Если среди факторов-кандидатов оказались группы сильно взаимосвязанных факторов, то из каждой такой группы в итоговой модели должен остаться только один фактор.

Особо следует рассмотреть случай нестабильной структуры внешних факторов. Основная причина нестабильности - невозможность получения данных по тем или иным факторам за отдельные периоды времени. В этом случае описанная выше методика относится к факторам, значения которых имеются по всем годам. Факторы, значения которых имеются только в отдельные периоды времени, рассматриваются отдельно. Если в текущем году добавились значения по новым факторам по сравнению с предыдущим периодом времени, то из этих “лишних” факторов кандидатами на включение в регрессионную модель целесообразно выбирать те, у которых коэффициенты корреляции превышают 0.3.
Если в текущем году число имеющихся внешних факторов уменьшилось, то следует рассмотреть как коррелируют с показателем инвалидности “лишние” факторы за предшествующие годы (лаг >1). При обнаружении существенных взаимосвязей (коэффициенты корреляции >0.3) эти факторы могут считаться кандидатами на включение в регрессионную модель с соответствующими лагами. Таким образом, в регрессионной модели могут появиться дополнительные члены: f(t-2), f(t-2) и т.п. Однако включение таких факторов в регрессионное уравнение целесообразно делать после построения регрессии с целью возможного улучшения модели.
Если факторы с лагами большими 1 не дают улучшения регрессионной модели, то они исключаются из уравнения регрессии.

После получения первоначального варианта регрессионной зависимости необходимо проанализировать статистику по включенным в модель внешним факторам. При обнаружении факторов, дающих незначительный вклад в регрессию, необходимо попробовать их исключить и оценить параметры новой регрессионной зависимости. Если качество оценивания (по остаточной сумме квадратов) окажется существенно хуже, чем до исключения факторов из модели, нужно вернуть исключенные факторы в модель. Эти операции необходимо проделывать до тех пор, пока не будет получена регрессионная зависимость, дающая удовлетворительное качество оценивания показателя инвалидности за текущий год.

Для получения прогнозируемого значения показателя инвалидности в полученное регрессионное уравнение необходимо подставить вместо y(t-1) значения y(t), а вместо F(t-1) - значения внешних факторов F(t).

Рассмотрим пример прогнозирования показателя инвалидности ”из общего числа первично признанных инвалидами: инвалиды детства” на 1995 год. Имелись следующие исходные статистические данные: значения показателя инвалидности за 1992, 1993, 1994, 1995 годы
по 75-ти регионам РФ; значения 79-ти внешних факторов за 1992 год, значения 15-ти внешних факторов за 1993 год и за 1994 год по 75-ти регионам РФ. В приложении 1 представлен список показателей инвалидности, в приложении 2 - внешних факторов.

Построение прогноза осуществлялось в три этапа.

Этап 1. Выделение внешних факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности. Для этого были вычислены парные коэффициенты корреляции между внешними факторами и показателем инвалидности для следующих периодов:

 

· с лагом 0:

фак- инва- F_2 F_9 F_10 F_15 F_26 F_37 F_39 F_40 F_41 F_44 F_56 F_57 F_59 F_71 F_72
торы лиды                              
-0,36 -0,44 0,00 -0,25 -0,22 -0,37 -0,24 0,00 0,00 0,00 0,00 0,34 0,00 0,00 0,31
-0,42 -0,46 0,00 0,00 -0,30 -0,31 -0,26 0,00 0,00 0,00 0,00 0,44 0,00 0,00 0,00
-0,50 -0,52 0,00 0,00 - - -0,30 0,00 0,00 0,00 0,00 0,30 0,00 0,00 0,00

· с лагом 1:

фак- инва- F_2 F_9 F_10 F_15 F_26 F_37 F_39 F_40 F_41 F_44 F_56 F_57 F_59 F_71 F_72
торы лиды                              
-0,42 -0,44 0,00 -0,24 -0,26 -0,38 0,00 -0,24 0,00 0,00 0,00 0,44 0,00 0,00 0,33
-0,50 -0,51 0,00 0,00 -0,31 -0,30 0,00 0,00 0,00 0,00 0,00 0,41 0,00 0,00 0,00
-0,43 -0,45 0,00 0,00 - - -0,24 0,00 0,00 0,00 0,00 0,38 0,00 0,00 0,00

· с лагом 2:

фак- инва- F_2 F_9 F_10 F_15 F_26 F_37 F_39 F_40 F_41 F_44 F_56 F_57 F_59 F_71 F_72
торы лиды                              
-0,50 -0,48 0,00 -0,26 -0,26 -0,38 0,00 0,00 0,00 0,00 0,00 0,37 -0,23   0,00
-0,43 -0,44 0,00 0,00 -0,27 -0,25 0,00 0,00 0,00 0,00 0,00 0,43 0,00 0,00  
                                   

 

Анализ коэффициентов корреляции позволят выделить следующие внешние факторы-претенденты на включение в уравнение регрессии: F_2, F_9, F_26, F_37, F_57.

Из этих внешних факторов нужно исключить сильно коррелирующие между собой. Корреляционная матрица для них имеет вид:

 

F_2 F_9 F_15 F_26 F_37 F_39 F_40 F_41 F_44 F_56 F_57 F_59 F_71
F_2 1,00                        
F_9 0,46 1,00                      
F_15 -0,46 -0,24 1,00                    
F_26 0,48 -0,04 -0,64 1,00                  
F_37 -0,50 -0,18 0,53 -0,69 1,00                
F_39 -0,43 -0,22 0,34 -0,36 0,28 1,00              
F_40 0,09 0,02 0,01 0,12 -0,05 -0,12 1,00            
F_41 0,17 0,20 -0,20 0,15 -0,08 0,00 0,03 1,00          
F_44 -0,05 0,08 0,01 -0,03 0,02 0,01 0,07 0,16 1,00        
F_56 0,04 0,03 -0,06 0,24 -0,09 -0,06 -0,04 0,10 0,05 1,00      
F_57 -0,01 0,06 0,09 -0,08 -0,11 -0,16 0,17 0,14 0,09 -0,02 1,00    
F_59 0,25 0,11 -0,12 0,15 -0,33 -0,34 0,15 0,07 0,03 -0,15 0,27 1,00  
F_71 0,03 -0,06 0,08 0,12 0,04 -0,08 0,28 0,03 0,06 0,01 0,35 -0,10 1,00
F_72 -0,39 -0,08 0,17 -0,33 0,27 0,31 -0,31 -0,01 0,03 -0,13 -0,05 -0,16 -0,26

 

Анализ этой матрицы показывает, что имеет смысл оставить факторы F_9, F_57, а из остальных факторов - только один, так как они сильно коррелируют между собой.

Этап 2.Построение первоначальной регрессионной модели.
Уравнение регрессии ищется в виде:

Момент времени t соответствует 1994 году, а (t-1) - 1993 году. По методу наименьших квадратов получены следующие значения коэффициентов регрессии:

 

Коэффициенты Стандартная ошибка
Свободный член 2,518331 0,807525
y(t-1) 0,623338 0,065276
F_2 -0,01565 0,007639
F_9 -0,15978 0,098367
F_57 0,002848 0,005017

Статистический анализ полученной регрессии:

 

  df SS MS F Значимость F
Регрессия 74,21074 12,36846 36,95291 1,49E-19
Остаток 22,76019 0,334709    
Итого 96,97093      

 

Таким образом, большая часть дисперсии рассматриваемого показателя инвалидности по пространственной выборке объясняется линией регрессии (SS регрессии > SS остатка). Полученную зависимость следует признать значимой.

Этап 3. Модификация полученного уравнения регрессии осуществляется на основе анализа полученных коэффициентов и с учетом взаимных корреляций внешних факторов. В результате в уравнение регрессии включаются факторы: F_57 и F_9. Регрессионный анализ дает новую модель:

 

Коэффициенты Стандартная ошибка
Свободный член 1,704855 0,699168
y(t-1) 0,635231 0,064368
F_9 -0,20933 0,079657
F_57 0,004427 0,004869

 

Статистический анализ вновь полученной регрессии:

 

  df SS MS F Значимость F
Регрессия 72,76425 24,25475 71,14099 2,37E-21
Остаток 24,20668 0,340939    
Итого 96,97093      

 

Анализ остатков показывает незначительное уменьшение доли дисперсии (с 74,21 до 72,76), объясняемой регрессией. Однако по-прежнему SS регрессии > SS остатка и полученную зависимость следует признать удовлетворительной.

Реальные и прогнозируемые значения показателей инвалидности для рассматриваемых районов РФ приведены на графике в приложении 5.

Итак, на первом этапе построения математической модели были изучены взаимосвязи показателей инвалидности с внешними факторами. С целью построения модели прогнозирования на год вперед прежде всего была рассмотрена взаимосвязь с лаговым интервалом в один год. В качестве исходных данных были взяты значения показателей инвалидности за 1993 год и значения внешних факторов за 1992 год по 79-ти районам Российской Федерации. Для выявления величины взаимосвязи были рассчитаны парные коэффициенты корреляции, чтобы представить как увеличение или уменьшение значений внешних факторов связано с увеличением или уменьшением рассматриваемых показателей инвалидности. Однако большие значения коэффициентов корреляции еще не говорят о наличии причинно-следственной связи. Они могут быть обусловлены одинаковым влиянием неучтенных факторов как на показатель инвалидности, так и на внешний фактор. Интерпретацию полученных коэффициентов корреляции может сделать только специалист, углублено занимающийся проблемой инвалидности.

Аналогично были получены парные коэффициенты корреляции для других лаговых интервалов.

На основе рассчитанных показателей была предложена математическая модель прогноза в виде корреляционно-регрессионных зависимостей.