Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Расстояние между объектами (кластерами) и мера близости




 

Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности объектов.

В общем случае понятие однородности объектов задается введением либо правила вычисления расстояний ρ(xi, хj) между любой парой исследуемых объектов (x1, x2,...,xn), либо некоторой функцией r(хi, xj), характеризующей степень близости i -го и j -го объектов.

Если задана функция ρ(xi, хj), то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащими к одному классу. Очевидно, что необходимо при этом сопоставлять ρ(xi, хj) с некоторыми пороговыми значениями, определяемыми в каждом конкретном случае по-своему.

Аналогично используется и мера близости r (xi, хj), при задании которой мы должны помнить о необходимости выполнения следующих условий: симметрии r (xi, хj) = r(xj, хi); максимального сходства объекта с самим собой r (xi, хi) = r (xi, хj), 1 ≤ i, j ≤ п, и монотонного убывания r (xi, хj) по мере увеличения ρ (xi, хj), т.е. из ρ (xk, хl) ≥ ρ (xi, хj) должно следовать неравенство r (xk, хl) ≤ ρ (xi, хj).

Выбор метрики, или меры близости, является узловым моментом исследования, от которого в значительной степени зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по-своему, в зависимости от целей исследования, физической и статистической природы наблюдений, априорных сведений о характере вероятностного распределения X.

Рассмотрим наиболее широко используемые в задачахкластерногоанализа расстояния и меры близости.

Обычное евклидово расстояние определяется по формуле

 

(53.43)

 

где xil, хjl значения l -го признака у i -го (j -го) объекта (l = 1, 2,..., k, i,j = 1, 2,.... п).

Оно используется в следующих случаях:

а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида σ2 Ek, где Еk единичная матрица, т.е. исходные признаки взаимно независимы и имеют одну и ту же дисперсию;

б) исходные признаки однородны по физическому смыслу и одинаково важны для классификации.

Естественное с геометрической точки зрения евклидово пространство может оказаться бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы Х к нормированнойматрице с элементами

 

 

где xil значение l -го признака у i -го объекта;

— среднее значение l -го признака;

— среднее квадратическое отклонение l -го признака.

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделимы по одному признаку и не разделимы по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с усилением «шумового» эффекта второго.

«Взвешенное» евклидово расстояние определяется из выражения

 

(53.44)

 

Оно применяется в тех случаях, когда каждой l -й компоненте вектора наблюдений Х удается приписать некоторый «вес» ω1, пропорциональный степени важности признака в задаче классификации. Обычно принимают 0 ≤ ω l ≤ 1, где l = 1,2,..., k.

Определение весов, как правило, связано с дополнительными исследованиями, например с организацией опроса экспертов и обработкой их мнений. Определение весов ω l только по данным выборки может привести к ложным выводам.

Хеммингово расстояние используется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние определяется по формуле

 

(53.45)

 

и равно числу несовпадений значений соответствующих признаков в рассматриваемых i -м и j- м объектах.

Как правило, решение задач классификации многомерных данных предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих выбрать из k исходных признаков x1, x2,..., xk сравнительно небольшое число наиболее информативных, т.е. уменьшить размерность наблюдаемого пространства.

В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.

Пусть Si — i- я группа (класс, кластер), состоящая из ni объектов;

— среднее арифметическое векторных наблюдений группы Si, т.е. «центр тяжести»;

ρ(Sl, Sm) — расстояние между группами Sl и Sm.

Наиболее употребительными расстояниями и мерами близости между классами объектов являются:

• расстояние, измеряемое по принципу «ближайшего соседа»:

 

(53.46)

 

• расстояние, измеряемое по принципу «дальнего соседа»:

 

(53.47)

 

• расстояние, измеряемое по «центрам тяжести» групп:

 

(53.48)

 

где xl и xm векторы средних соответственно Sl и Sm кластеров;

• расстояние, измеряемое по принципу «средней связи», определяемое как среднее арифметическое всех попарных расстояний между представителями рассматриваемых групп:

 

(53.49)

 

Академиком А.Н. Колмогоровым было предложено «обобщенное расстояние» между классами, которое включает в себя в качестве частных случаев все рассмотренные выше виды расстояний.

Расстояния между группами элементов — особенно важный параметр в так называемых агломеративных иерархических кластер-процедурах, так как принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп: сначала — самых близких, а впоследствии — все более и более отдаленных друг от друга. При этом расстояние между кластером Sl и кластером S(m,q), являющимся объединением двух других кластеров — Sm и Sq можно определить по формуле

 

(53.50)

 

где ρ lm = ρ (Sl, Sm); ρ lq = ρ (Sl, Sq) и ρ mq = ρ (Sm, Sq) - расстояния между кластерами Sl, Sm и Sq;

α, β, γ и δ — числовые коэффициенты, значения которых определяют специфику процедуры, ее алгоритм.

Например, при α = β = -δ = 1/2 и γ = 0 приходим к расстоянию, построенному по принципу «ближайшего соседа». При α = β = δ = 1/2 и γ = 0 расстояние между классами определяется по принципу «дальнего соседа», т.е. как расстояние между двумя самыми дальними элементами этих классов.

 





Поделиться с друзьями:


Дата добавления: 2016-12-06; Мы поможем в написании ваших работ!; просмотров: 1062 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Два самых важных дня в твоей жизни: день, когда ты появился на свет, и день, когда понял, зачем. © Марк Твен
==> читать все изречения...

2853 - | 2649 -


© 2015-2025 lektsii.org - Контакты - Последнее добавление

Ген: 0.009 с.