Метод главных компонент и его применение

Метод главных компонент и его применение. Метод главных компонент МГК используется как эффективный инструмент анализа данных.

Он позволяет выявить основные закономерности анализируемых изображений, выявляя и подавляя помеховые сигналы.

В конечном итоге, объем данных уменьшается, а их информативность увеличивается. Изображения, полученные с помощью МГК, дополняют друг от друга, и обычно легче поддаются интерпретации, чем исходные данные.

Процесс обработки данных МГК можно пояснить на примере распределения яркостей пикселов в двухканальном спутниковом изображении. На рис. показано распределение их значений на плоскости. Координатные оси соответствуют яркостям пикселов в каждом канале. Если данные в обоих каналах имеют нормальные распределения, то итоговое распределение имеет характерную форму эллипса. В n-мерной системе координат эллипс 2 измерения, эллипсоид 3 измерения или гиперэллипсоид более чем 3 измерения формируются, если распределение в каждом канале нормальное или близкое к нормальному.

Для удобства будем использовать далее термин эллипс вне зависимости от числа рассматриваемых каналов. Основной идеей МГК является вращение осей спектрального пространства таким образом, чтобы добиться максимальной некоррелированности координат анализируемых точек. Очевидно, что при этом происходит изменение координат каждого пиксела относительно новых осей, т.е. меняются их яркостные значения.

Продольная секущая, которая соответствует главной самой длинной оси эллипса, называется первой главной компонентой ПГК данных. Направление первой главной компоненты - первый собственный вектор, а ее длина - первое максимальное собственное число. Новая ось спектрального пространства определяется этой первой главной компонентой, а точкам в системе координат, соответствующей этой оси, теперь присваиваются новые координаты. Первая компонента показывает направление и длину главной оси эллипса.

Вдоль нее яркости пикселов будут иметь в среднем наибольший диапазон изменчивости, что облегчает разделение объектов по различным яркостным градациям. На рис. легко видеть, что первое собственное число длина наибольшей оси эллипса будет всегда больше, чем дисперсии измерений в исходных каналах, так как гипотенуза прямоугольного треугольника всегда длиннее любого из его катетов. В двухмерной системе координат вторая главная компонента соответствует второй оси эллипса.

В вероятностном смысле она описывает наибольший разброс данных измерений, которые не учитывает из-за ортогональности ПГК. В общем случае в n измерениях имеются n основных компонент. Каждая последующая главная компонента - является самой длинной из оставшихся осью эллипса и ортогональна к предыдущим компонентам в n-мерном пространстве системы координат ее длина количественно соответствует дисперсии оставшейся неучтенной предыдущими основными компонентами изменчивости данных.

После применения МГК количество каналов, данные которых анализируются, остается прежним, т.к. поворот осей в nмерном пространстве не понижает его размерности. Однако, несколько первых новых каналов учитывают максимальный разброс данных - в некоторых случаях почти 100 , поэтому данными остальных каналов часто можно пренебречь без потери полезной информации. Таким образом, практически МГК позволяет уменьшить объем данных и понизить количество используемых каналов. Отдельный анализ различий по второй и последующим компонентам может выявить минимальные различия данных основных составляющих каналов.

По этим компонентам, после устранения влияния предыдущих, можно выделить очень тонкие детали изображения, которые были затенены более высоким контрастом в первоначальном изображении. В ряде случаев они могут использоваться, наоборот, для целей фильтрации, исключая характерный шум в данных например, помехи в данных, полученных со старых или неисправных сканеров. Обратное преобразование изображения, обработанного МГК, в исходное со снижением уровня шумов после удаления последних главных компонент, содержащих эти шумы, называется инверсией главных компонент.

Этот прием используется для более качественного и точного распознавания объектов и их свойств другими цифровыми методами. 1.2