Меры близости в алгоритмах кластеризации

Расстояния между объектами предполагают их представление в виде точек m-мерного пространства Rm. В этом случае могут быть использованы различные подходы к вычислению расстояний.

Рассмотренные ниже меры определяют расстояния между двумя точками, принадлежащими пространству входных переменных. Используются следующие обозначения:

— множество данных, являющееся подмножеством m-мерного вещественного пространства;

, — элементы множества данных;

Евклидово расстояние - вычисляется следующим образом:

Расстояние по Хеммингу. Это расстояние является просто средним разностей по координатам. В большинстве случаев данная мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида, однако для нее влияние отдельных больших разностей (выбросов) уменьшается (т. к. они не возводятся в квадрат). Расстояние по Хеммингу вычисляется по формуле:

Это расстояние называют также манхэттенское расстояние (расстояние городских кварталов), или "сити-блок" расстоянием.

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле