Изменчивости главных компонент.

 

На рис. 4.1 изображен вариант изменения кумулятивной изменчивости главных компонент. Из графика непосредственно видно, что первые четыре компоненты определяют около 95% общей изменчивости переменных , так что доля 5-й и последующих компонент явно незначительна. В этом случае в модель целесообразно включить лишь первые четыре компоненты.

В том случае, если ½½= 0, матрица имеет ранг r<n, у нас имеется лишь r отличных от нуля собственных чисел, которым соответствуют r главных компонент, определяющих суммарную изменчивость переменных , i=1,2,..., n. Тогда число включаемых в модель компонент не превосходит числа r. В исследованиях реальных процессов число главных компонент обычно существенно меньше количества независимых переменных.

Отобрав существенные главные компоненты можно приступить к построению эконометрической модели, в которой они выступают в качестве независимых переменных, опосредованно отображая влияние факторов , i=1,2,..., n на характер изменения зависимой переменной .

Представим такую модель в линейном виде.

 

 

где g1,..., gk; xt – ошибка модели в момент t.

Вследствие ортогональности новых независимых переменных z1, z2, ..., zk при использовании МНК для определения неизвестных коэффициентов gj, j=1, 2,..., k модели (4.48) вычислительных проблем не возникает. Заметим, что ковариационная матрица оценок сj коэффициентов модели gj на практике имеет следующий вид:

 
 


Соv(с)=su2(Z¢Z)–1=su2(В ¢В)–1=su 2 , (4.49)

 

где рассматривается как оценка дисперсии ошибки xt модели (4.48) и – расчетные значения центрированной переменной , t=1,2,..., Т. Таким образом, дисперсия оценки j-го коэффициента модели и взаимные ковариации этих оценок определяются следующими выражениями:

 

s2(сj)=su2 ×mj =su2bj ¢ ()–1bj, (4.50)

cov(сj, сi)=0; j, i=1,2,...,k; j¹i.

 

Следует однако заметить, что использование моделей с главными компонентами в социально-экономических исследованиях порождает ряд проблем содержательного характера. Дело в том, что каждая из компонент, будучи линейной комбинацией изначально отобранных в модель факторов, в общем случае не допускает четкого содержательного толкования, поскольку эти факторы часто имеют различную природу и возможно разные единицы измерения. В такой ситуации дать удовлетворительное содержательное (экономическое) обоснование закономерностям изменения переменной уt в зависимости от изменения компонент, природа которых не поддается четкому объяснению, довольно затруднительно.

Содержание компонент достаточно сложно установить и в ситуациях, когда факторы хi имеют сходное содержание (например, в экономических исследованиях все факторы часто удается представить в стоимостном виде). Однако и в этом случае компонентам, которые являются различными вариантами экономически не определенных линейных комбинаций пусть и объективных стоимостных характеристик, дать убедительное содержательное обоснование обычно не представляется возможным.

С содержательной точки зрения более обоснованным представляется другой подход, согласно которому после построения модели с главными компонентами, осуществляется переход к модели с изначально отобранными факторами. Это несложно сделать путем подстановки в выражение (4.48) уже сформированных линейных комбинаций (выражение (4.21)). Проделав несложные преобразования, получим:

 

 

где – коэффициенты, которые можно рассматривать как “оценки оценок” коэффициентов исходной модели (4.18).

Однако, если количество включенных в модель компонент k меньше числа изначальных факторов п (k < п), имеется в виду случай, когда матрица () имеет ранг п, то уравнение (4.51) не соответствует исходному варианту эконометрической модели (4.18), т. е. Отличия этих уравнений обусловлены потерями информации вследствие невключения в модель нескольких “малозначимых” компонент. Формальное соответствие этих показателей достигается только в том случае, когда в модель включают все п компонент. Вместе с тем заметим, что увеличивать число главных компонент за счет “малозначимых” также нецелесообразно, поскольку если собственное число матрицы близко к нулю при его определении в ходе решения характеристического уравнения

 

½()–mЕ½=0. (4.52)

 

возникают ошибки округления. Они опять же способствуют тому, что модель, построенная с использованием процедуры (4.51) не будет соответствовать истинной модели процесса.

Заметим, что рассмотренный подход неприемлем и в ситуации, когда две или несколько изначальных переменных связаны строгой линейной зависимостью (например, =a0+a1), т. е. матрица имеет ранг r< п. В этом случае можно показать, что коэффициенты при зависимых переменных, полученные из модели с главными компонентами, оказываются пропорциональны угловому параметру этой зависимости a1 и не имеют отношения к истинным их взаимосвязям с переменной .

Таким образом, при использовании главных компонент обычно приходятся выбирать “меньшее из нескольких зол”, порожденных проблемами с вычислениями, проблемами с содержательной интерпретацией компонент, проблемами с потерей точности при построении модели. Частичный компромисс при решении этих проблем возможен, когда компоненты строятся на основе неполного набора исходных факторов, между которыми существует сильная зависимость, а остальные факторы включаются в модель без преобразования. Например, если исходные переменные х1,..., хm связаны между собой и с переменными хm+1,..., хn относительно слабой корреляционной зависимостью, а между последними эта зависимость является достаточно сильной, что служит причиной плохой обусловленности матрицы , то главные компоненты целесообразно формировать только на основе переменных с индексами i=т+1,..., п. Этот прием оказывается особенно полезным, когда переменные хm+1,..., хn являются однородными по своему содержанию. В таких ситуациях иногда удается придать им вполне конкретный смысл.

В заключении данного раздела заметим, что при разномасштабных исходных факторах различной природы рекомендуется главные компоненты строить на основе их нормированных безразмерных величин. Их получают путем следующего преобразования:

 

где – cреднеквадратическое отклонение переменной xi, i=1, 2,..., n.

В этом случае удается избежать влияния масштаба переменных xi на оценки параметров моделей и легко оценивается истинное влияние каждой из них и на главные компоненты и на зависимую переменную уt.