Метод главных компонент

Метод главных компонент является одним из самых эффективных вычислительных средств, позволяющих оценить коэффициенты эконометрической модели при плохой обусловленности матрицы (X¢X), вызванной сильной корреляционной зависимостью между некоторыми объясняющими переменными. Однако, как это будет показано далее в этом разделе, использование данного метода обычно ведет к потере части информации, содержащейся в матрице X, что, в свою очередь, является причиной того, что построенная на его основе модель может не вполне адекватно отражать закономерности рассматриваемых явлений.

Вместе с тем, вычислительные преимущества метода главных компонент достаточно очевидны, что обусловливает его популярность в эконометрических исследованиях самого широкого круга процессов, особенно в ситуациях, когда число независимых переменных достаточно велико и даже не слишком значительные корреляции между ними делают матрицу X¢X плохо обусловленной.

Основная идея метода главных компонент состоит в замене объясняющих переменных xi, i=1,2,..., n на новые переменные zj, j=1,2,..., k; k£n, которые, с одной стороны, свободны от недостатков, вызванных корреляционной зависимостью, а, с другой, – содержат в себе максимально возможную долю информации “старых” переменных xi. Обычно метод главных компонент работает с центрированными переменными (см. раздел 1.1, выражение (1.13)). С учетом этого эконометрическая модель с центрированными переменными определяется выражением (1.10), в котором свободный коэффициент a0 отсутствует, т. е.

 

 

где, напоминаем, центрированные переменные определяются как и их математические ожидания равны нулю, т. е. i=1,2,..., n.

Таким образом, матрица определяется следующим выражением:

=

Выражение является мерой изменчивости переменной xi относительно ее среднего значения на интервале (1,Т). Аналогично, выражение определяет взаимную изменчивость переменных xi и xr на рассматриваемом интервале. Несложно заметить, что, если разделить эти изменчивости на Т–1, то получим дисперсию переменной xi и ковариацию переменных xi и xr соответственно. Таким образом, сумма диагональных элементов матрицыв данном случае содержит в себе всю информацию относительно изменчивости включенных в исходную модель переменных xi. Эта сумма называется следом матрицы и обычно обозначается как tr().

Главные компоненты (новые переменные zjt) формируются как линейные комбинации “старых центрированных переменных” с учетом введения для них двух следующих принципиальных ограничений.

1. Полная совокупность главных компонент должна содержать в себе всю изменчивость переменных xi, i=1,2,..., n.

2. Главные компоненты должны быть ортогональны между собой, т. е. для любой пары компонент j и r, j¹r должно выполняться соотношение

 

 

Запишем линейное представление главных компонент через центрированные переменные в следующем виде:

Заметим, что поскольку то для всех j=1,2,..., k. С учетом этого выражение (4.20) можно интерпретировать в том смысле, что взаимная изменчивость переменных zj и zr равна нулю .

В матричной форме выражение (4.21) запишем следующим образом :

z1=b1, (4.22)

 

где z1=(z11,..., z1T)¢ – вектор-столбец значений z1t первой компоненты в моменты t; b1=(b11,..., b1n)¢ – вектор-столбец коэффициентов линейной зависимости, выражающей связь первой компоненты со значениями центрированных переменных в моменты t=1,2,...,Т; – матрица центрированных переменных , i=1,2,..., n , в которой столбец, состоящий из единиц, отсутствует.

С учетом выражения (4.22) сумма квадратов элементов z1t, т. е. , характеризующая изменчивость первой главной компоненты, выражается следующим образом:

 

(z1¢, z1)=b1¢b1. (4.23)

 

Определим неизвестный вектор коэффициентов b1 таким образом, чтобы первая главная компонента вобрала в себя максимальную долю изменчивости, содержащейся в матрице , но при условии, что сами значения коэффициентов не будут влиять на эту характеристику. Это можно сделать введя нормирующее ограничение на элементы вектора b1, которое выражается следующим соотношением

 

(b1¢, b 1)=b112+b122+...+b1n2=1. (4.24)

 

Очевидно, что при выполнении условия (4.24) уровень изменчивости (z1¢, z1) не сможет превзойти изменчивость всей матрицы .

Задача максимизации квадратичной формы (4.23) при условии (4.24) может быть решена на основе метода множителей Лагранжа, согласно которому искомое решение, т. е. вектор b1, является значением аргумента, максимизирующим следующий функционал:

 

f 1=b1¢b1 m1(b1¢b1 –1), (4.25)

 

где m 1 – множитель Лагранжа.

Исходя из условия оптимума ¶ji /bi=0, дифференцируя правую часть (4.25) по вектору b 1 с учетом очевидного условия ¶mi /bi =0, получим

 

(b 1=m1b1. (4.26)

 

Из равенства (4.26) следует, что m1 – максимальное собственное число (перронов корень), положительно определенной матрицы (), а b1 – соответствующий ему собственный вектор, координаты которого должны удовлетворять соотношению (4.24).

Аналогичным образом значения второй главной компоненты в моменты t=1,2,..., Т определим как линейную комбинацию независимых переменных , i=1,2,..., n, что может быть выражено равенством:

 

z2=b2, (4.27)

 

где z2=(z21, z22,..., z2T)¢; b2=(b21, b22,..., b2n)¢.

Неизвестные коэффициенты-компоненты вектора b2 определим из (4.27) с учетом трех отмеченных выше условий. Компонента z2 должна вобрать в себя максимальную долю изменчивости матрицы , оставшейся после компоненты z1, вектора z1 и z2 должны быть ортогональны друг другу, а координаты вектора b2 должны быть нормированы согласно соотношению типа (4.24).

Сочетание этих условий соответствует постановке задачи максимизации квадратичной формы

 

b2¢b2®max (4.28)

 

при ограничениях

 

(b2¢, b1)=0. (4.30)

 

При этом отметим, что вид функционала (4.28) вытекает из определения изменчивости компоненты z2 как скалярного произведения (z2¢, z2)=b2¢b2, выражение (4.29) является аналогом условия (4.24), а равенство (4.30) является следствием условия ортогональности компонент z1 и z2 .

В самом деле, условие ортогональности z1 и z2 можно представить с учетом свойства (4.26) в следующем виде:

 

0=(z2¢, z1)=b2¢b1 =m1(b2¢, b 1). (4.31)

 

Из (4.31) непосредственно следует ограничение (4.30).

Оптимизационная задача (4.28)–(4.30) также решается с помощью метода множителей Лагранжа как задача безусловной максимизации следующей квадратичной формы:

 

f2=b2¢b2 m2(b2¢b2–1)–h 1(b2¢b1 –0), (4.32)

 

где m2 и h1 – множители Лагранжа.

Условие максимума (4.32) приводит к следующему выражению:

¶j 2 /b2=2b2–2m2b2h1b1=0. (4.33)

 

Несложно показать, что множитель h1=0. Для этого умножим равенство (4.33) слева на b1¢. В результате

 

2b1¢b2 –2m 2(b1¢b2)–h1(b1¢b1)=0. (4.34)

 

Поскольку

 

b 1¢=b 1=m1b1, (b1¢, b2)=0 и (b1¢, b1)=1,

 

то из условия (4.34) непосредственно следует, что h 1= 0.

В этом случае выражение (4.33) можно представить в виде аналогичном (4.26) :

b2=m2b2. (4.35)

 

Из (4.35) следует, что множитель Лагранжа m 2 является вторым по величине собственным корнем матрицы () и положительным числом (поскольку у положительно определенной матрицы все собственные числа положительные). Этому собственному числу соответствует собственный вектор b2, координаты которого удовлетворяют условию (4.29).

Продолжение процесса формирования главных компонент как линейных комбинаций независимых переменных приводит к следующему результату. Коэффициенты этих линейных комбинаций являются нормированными собственными векторами b1, b2,..., bn матрицы , которым соответствуют собственные числа m 1, m 2,..., m n, удовлетворяющие соотношению

m1>m 2 ³m3 ³...³m n. (4.36)

 

Объединим вектора-столбцы bi, i=1,2,..., n в матрицу следующего вида:

В=(b1, b2,..., bn). (4.37)

 

Тогда матрица значений главных компонент Z в общем случае, имеющая размер n´Т определяется согласно следующему выражению:

Z=В, (4.38)

 

матрица Z¢Z (аналог матрицы ) с учетом свойств ортогональности компонент и нормированности векторов bi, i=1,2,..., n имеет следующий вид:

 
 


Z¢Z=В¢В= . (4.39)

 

Заметим, что trZ¢Z, т. е. является следом матрицы Z¢Z и определяет общую изменчивость главных компонент. Можно формально показать, что

tr(Z¢Z)=tr(), (4.40)

 

т. е. изменчивость переменных , i=1,2,..., n равна изменчивости главных компонент zj, j=1,2,..., k.

При доказательстве равенства (4.40) будем использовать два результата теории матриц. Первый из них относится к свойствам матрицы В. Из условий типа (4.26), (4.29) и (4.30), определяющих свойства нормированности векторов bi, i=1,2,..., n; и их ортогональности, следует, что

В¢В=Е. (4.41)

 

Таким образом, В¢=В–1 и для таких матриц справедливым является следующее равенство:

ВВ¢=Е. (4.42)

 

Из последнего результата вытекают определенные свойства следов матриц, которые могут быть сформулированы следующим образом: для произвольной матрицы А имеет место равенство следов матриц А¢А и АА¢, т. е.

tr(А¢А)=tr(АА¢). (4.43)

 

Как частный случай равенства (4.43) можно рассматривать следующий результат: скалярное произведение вектора-строки х¢ на вектор-столбец х равно следу матрицы, полученной путем умножения вектора-столбца х на вектор-строку х¢. Иными словами,

 

(х¢х)= =tr(хх¢), (4.44)

 

где хi – координаты вектора х.

С учетом свойств (4.42) и (4.44) имеем

tr(Z¢Z)== tr(В¢В)=tr(В¢В)=tr()=

= . (4.45)

 

Таким образом, отношение можно интерпретировать как вклад (долю) компоненты zj в общую изменчивость независимых факторов , i=1,2,..., n. Иными словами, справедливым является следующее равенство:

 

(4.46)

 

Условие (4.46) является ключевым при решении вопроса о том, сколько главных компонент целесообразно включить в эконометрическую модель. Как уже было отмечено выше, в том случае, когда матрица () является плохо обусловленной, но ее определитель отличен от нуля, ½½¹0, теоретически общее число главных компонент совпадает с числом объясняющих переменных п. Однако информативная ценность главных компонент различна. Компоненты с большими номерами, как правило, определяют лишь незначительную долю общей изменчивости переменных и их обычно не включают в эконометрическую модель. Решение о том, на какой компоненте целесообразно остановиться может быть принято на основе анализа кумулятивной переменной I(mr), определяемой как

I(mr) = . (4.47)

Если I(mr) определяет достаточную долю изменчивости переменных и эта доля для компоненты с номером r+1 рассматривается как относительно небольшая (на практике – менее процента от общей изменчивости), то компоненты с номерами r+1, r+2,...,k в модель обычно не включают (см. рис. 4.1), ограничиваясь первыми r номерами из них.

На рис. 4.1 изображен вариант изменения кумулятивной изменчивости главных компонент. Из графика непосредственно видно, что первые четыре компоненты определяют около 95% общей изменчивости переменных , так что доля 5-й и последующих компонент явно незначительна. В этом случае в модель целесообразно включить лишь первые четыре компоненты.

В том случае, если ½½= 0, матрица имеет ранг r<n, у нас имеется лишь r отличных от нуля собственных чисел, которым соответствуют r главных компонент, определяющих суммарную изменчивость переменных , i=1,2,..., n. Тогда число включаемых в модель компонент не превосходит числа r. В исследованиях реальных процессов число главных компонент обычно существенно меньше количества независимых переменных.

 

I(mr)

 

1

0,9

0,8

0,7

0,6

0,5

 

 
 


1 2 3 4 5 6 7 8 9 10 k