Алгоритмы агломерации:
- Метод дальнего соседа
- Метод ближнего соседа
- Метод Варда
- Центроидный метод (ищем центр тяжести)
- Метод средней связи (среднее значение всех расстояний между кластерами)
Методы кластеризации подразделяются на иерархические и неиерархические. Иерархические методы подразделяются на агломерационный и дивензивный.
Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
A=(3;5;7)
B=(4;6;12)
C=(9;8;2)
D=(5;8;3)
a) Евклид+метод ближнего соседа
dabев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-4)2+(5-6)2+(7-12)2=√27
dacев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-9)2+(5-8)2+(7-2)2=√70
dadев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-5)2+(5-8)2+(7-3)2=√29
dbcев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-9)2+(6-8)2+(12-2)2=√129
dbdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-5)2+(6-8)2+(12-3)2=√86
dcdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(9-5)2+(8-8)2+(2-3)2=√17
A | B | C | D | |
A | √27 | √70 | √29 | |
B | √129 | √86 | ||
C | √17 | |||
D |
Выбираем самое маленькое расстояние (√17) и объединяем два наблюдения(C и D). Получаем новую матрицу (в качеств расстояния в новой матрице между наблюдением и группой выбираем наименьшее: для A сравниваем √70 и √29, для B √129 и √86)
A | B | CD | |
A | √27 | √29 | |
B | √86 | ||
CD |
Опять выбираем самое маленькое расстояние (√27) и объединяем два наблюдения(A и B). Получаем новую матрицу (в качеств расстояния в новой матрице между группами выбираем наименьшее: сравниваем √29 и √86)
AB | CD | |
AB | √29 | |
CD |
Получаем два кластера AB и CD
Дендрограма: (наблюдения идут abcd)
a
b
c
d
b) Евклид+метод дальнего соседа
dabев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-4)2+(5-6)2+(7-12)2=√27
dacев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-9)2+(5-8)2+(7-2)2=√70
dadев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-5)2+(5-8)2+(7-3)2=√29
dbcев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-9)2+(6-8)2+(12-2)2=√129
dbdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-5)2+(6-8)2+(12-3)2=√86
dcdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(9-5)2+(8-8)2+(2-3)2=√17
A | B | C | D | |
A | √27 | √70 | √29 | |
B | √129 | √86 | ||
C | √17 | |||
D |
Выбираем самое маленькое расстояние (√17) и объединяем два наблюдения(C и D). Получаем новую матрицу (в качеств расстояния в новой матрице между наблюдением и группой выбираем наибольшее: для A сравниваем √70 и √29, для B √129 и √86)
A | B | CD | |
A | √27 | √70 | |
B | √129 | ||
CD |
Опять выбираем самое маленькое расстояние (√27) и объединяем два наблюдения(A и B). Получаем новую матрицу (в качеств расстояния в новой матрице между группами выбираем наибольшее: сравниваем √70 и √129)
AB | CD | |
AB | √129 | |
CD |
Получаем два кластера AB и CD
c) Евклид+метод средней связи
dabев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-4)2+(5-6)2+(7-12)2=√27
dacев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-9)2+(5-8)2+(7-2)2=√70
dadев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(3-5)2+(5-8)2+(7-3)2=√29
dbcев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-9)2+(6-8)2+(12-2)2=√129
dbdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(4-5)2+(6-8)2+(12-3)2=√86
dcdев=√ (x1(1) -x2(1))2 + (x1(2) -x2(2))2 +(x1(3) -x2(3))2 = √(9-5)2+(8-8)2+(2-3)2=√17
A | B | C | D | |
A | √27 | √70 | √29 | |
B | √129 | √86 | ||
C | √17 | |||
D |
Выбираем самое маленькое расстояние (√17) и объединяем два наблюдения(C и D). Получаем новую матрицу (в качеств расстояния в новой матрице между наблюдением и группой берется среднее значение всех расстояний, измеренных между объектами двух кластеров)
A | B | CD | |
A | √27 | (√70+√29)/2=√47.3 | |
B | (√129+√86)/2=√106.414 | ||
CD |
Опять выбираем самое маленькое расстояние (√27) и объединяем два наблюдения(A и B). Получаем новую матрицу (в качеств расстояния в новой матрице между группами берется среднее значение всех расстояний, измеренных между объектами двух кластеров)
AB | CD | |
AB | (√70+√29+√129+√86)/4 | |
CD |
Получаем два кластера AB и CD
Для других расстояний разница только в методе расчета расстояния, а принцип объединения тот же