Факторный анализ как метод редукции данных

Пример 1:

Предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами:

удовлетворены ли люди своим хобби;

как интенсивно они им занимаются.

Две переменные (ответы на два разных пункта) коррелированы между собой.

Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.

Объединение двух переменных в один фактор.

Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния.

Если определить новую перемен­ную на основе линии регрессии, изо­браженной на этой диаграмме, то та­кая переменная будет включать в се­бя наиболее существенные черты обеих переменных.

Так сокращают число переменных с двух до одной. Отметим, что новый фактор-переменная в действительно­сти является линейной комбинацией двух исходных переменных.

 

Главная идея факторного анализа:объединение двух коррели­рованных переменных в один фактор.

Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако ос­новной принцип представления двух или более зависимых перемен­ных одним фактором остается в силе.

Выделение главных компонент.

На диаграмме рассеяния вы можете рассматривать линию рег­рессии как ось X, повернув ее так, что она совпадает с прямой рег­рессии. Этот тип вращения называется вращением, максимизирую­щим дисперсию, так как критерий (цель) вращения заключается в минимизации разброса вокруг нее и максимизации дисперсии (из­менчивости) "новой" переменной (фактора).

Обобщение на случай многих переменных.

В том случае, когда имеются более двух - три переменные, можно считать, что они определяют трехмерное "пространство" точно так же, как две переменные определяют плоскость. Если вы имеете три переменные, то можете построить ЗМ диаграмму рассеяния.


 


 

представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.

Сколько Факторов следует выделять?

Анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных.

Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости.

Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что счи­тать малой "случайной" изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяю­щие рационально выбрать число факторов.

Лабораторный пример:(7респондентов отвечают на 6 вопросов) Как только получена информация о том, сколько дисперсии выде­лил каждый фактор, вы можете возвратиться к вопросу о том, сколь­ко факторов следует оставить.

1. Критерий Кайзера.Сначала вы можете отобрать только фак­торы, со значениями вклада, большими 1. По существу, это означа­ет, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером (Ка(зег, 1960), и является, вероятно, наиболее широко используемым. В приведенном выше примере на основе этого критерия вам следует сохранить только 2 фактора (две главные компоненты).


2. Критерий каменистой осыпи -

является графическим методом, впервые предложенным Кэттелем (Саttel, 1966). Вы можете изобразить собственные значения, представлен­ные в таблице ранее, в виде простого графика.

Кэттель предложил найти такое место на графике, где убывание соб­ственных значений слева направо

 

 

максимально замедляется. В соответствии с этим критерием можно оставить в этом примере 2 или 3 фактора.

Вопрос о группировке вопросов-переменных в факторы решается далее на основе соответствующей таблицы или графика.