Теоретические сведения

Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.

В процессе обработки значащие факторы могут выбираться вручную или автоматически. При ручном выборе около имени каждого входного поля устанавливается флажок, если это поле нужно включить в выходную выборку, и снимается в противном случае. В автоматическом режиме исключаются все факторы, корреляция которых с выходными полями меньше порога задаваемого уровня значимости.

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции, всегда обозначаемый латинской буквой r, используется для определения наличия взаимосвязи между двумя свойствами.

Связь между признаками (по шкале Чеддока) может быть сильной, средней и слабой. Тесноту связи определяют по величине коэффициента корреляции, который может принимать значения от -1 до +1 включительно.

Таблица 2.1 – Критерии оценки тесноты связи

Величина коэффициента корреляции 0,1 – 0,3 0,3 – 0,5 0,5 – 0,7 0,7 – 0,9 0,9 – 1,0
Характеристика силы связи слабая умеренная заметная высокая весьма высокая