Факторный анализ как метод редукции данных

Пример 1:

Предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами:

удовлетворены ли люди своим хобби;

как интенсивно они им занимаются.

Две переменные (ответы на два разных пункта) коррелированы между собой.

Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.

Объединение двух переменных в один фактор.

Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния.

Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включать в себя наиболее существенные черты обеих переменных.

Так сокращают число переменных с двух до одной. Отметим, что новый фактор-переменная в действительности является линейной комбинацией двух исходных переменных.

Главная идея факторного анализа:объединение двух коррелированных переменных в один фактор.

Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

Выделение главных компонент.

На диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в минимизации разброса вокруг нее и максимизации дисперсии (изменчивости) "новой" переменной (фактора).

Обобщение на случай многих переменных.

В том случае, когда имеются более двух - три переменные, можно считать, что они определяют трехмерное "пространство" точно так же, как две переменные определяют плоскость. Если вы имеете три переменные, то можете построить ЗМ диаграмму рассеяния.

представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.

Сколько Факторов следует выделять?

Анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных.

Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости.

Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов.

Лабораторный пример:(7респондентов отвечают на 6 вопросов) Как только получена информация о том, сколько дисперсии выделил каждый фактор, вы можете возвратиться к вопросу о том, сколько факторов следует оставить.

1. Критерий Кайзера.Сначала вы можете отобрать только факторы, со значениями вклада, большими 1. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером (Ка(зег, 1960), и является, вероятно, наиболее широко используемым. В приведенном выше примере на основе этого критерия вам следует сохранить только 2 фактора (две главные компоненты).

2. Критерий каменистой осыпи -

является графическим методом, впервые предложенным Кэттелем (Саttel, 1966). Вы можете изобразить собственные значения, представленные в таблице ранее, в виде простого графика.

Кэттель предложил найти такое место на графике, где убывание собственных значений слева направо

максимально замедляется. В соответствии с этим критерием можно оставить в этом примере 2 или 3 фактора.

Вопрос о группировке вопросов-переменных в факторы решается далее на основе соответствующей таблицы или графика.