Ћекции.ќрг


ѕоиск:




 атегории:

јстрономи€
Ѕиологи€
√еографи€
ƒругие €зыки
»нтернет
»нформатика
»стори€
 ультура
Ћитература
Ћогика
ћатематика
ћедицина
ћеханика
ќхрана труда
ѕедагогика
ѕолитика
ѕраво
ѕсихологи€
–елиги€
–иторика
—оциологи€
—порт
—троительство
“ехнологи€
“ранспорт
‘изика
‘илософи€
‘инансы
’ими€
Ёкологи€
Ёкономика
Ёлектроника

 

 

 

 


јлгоритм k-средних (k-means)




Ќаиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. ¬ отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, дл€ этого метода необходимо иметь гипотезу о наиболее веро€тном количестве кластеров.

јлгоритм -средних строит кластеров, расположенных на возможно больших рассто€ни€х друг от друга. ¬ыбор числа может базироватьс€ на результатах предшествующих исследований, теоретических соображени€х или интуиции.

ќбща€ иде€ алгоритма: объекты распредел€ютс€ по кластерам так, что средние в кластерах (дл€ всех переменных) максимально возможно отличаютс€ друг от друга.

 ластеризаци€ осуществл€етс€ по следующему алгоритму:

1. ¬ыбор первоначальных центров кластеров:

¬ыбираетс€ число кластеров .  аждому кластеру соответствует один центр. ¬ыбор первоначальных центров может осуществл€тьс€ одним из следующих способов:

Ј выбор наблюдений из услови€ максимизации рассто€ни€ между ними;

Ј случайный выбор наблюдений;

Ј выбор первых наблюдений.

2. ѕервоначальное распределение объектов по кластерам.

 аждый объект присоедин€етс€ к тому кластеру, рассто€ние до которого €вл€етс€ наименьшим.

3. »теративный процесс.

¬ычисл€ютс€ центры кластеров, как покоординатные средние кластеров. ќбъекты оп€ть перераспредел€ютс€. ѕроцесс вычислени€ центров и перераспределени€ продолжаетс€ до тех пор, пока не будет выполнено одно из условий останова:

Ј кластерные центры стабилизировались, т.е. все наблюдени€ принадлежат кластеру, которому принадлежали до текущей итерации;

Ј число итераций равно максимальному возможному заданному числу итераций.

Ќа рис. 3 приведен пример работы алгоритма -средних дл€ , равного двум.

–ис. 3 ѕример работы алгоритма -средних ( =2)

ѕосле получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаютс€ друг от друга). ƒл€ этого рассчитываютс€ средние значени€ дл€ каждого кластера. ѕри хорошей кластеризации должны быть получены сильно отличающиес€ средние дл€ всех измерений или хот€ бы большей их части.

ƒостоинства алгоритма -средних:

Ј простота использовани€;

Ј быстрота использовани€;

Ј пон€тность и прозрачность алгоритма.

Ќедостатки алгоритма k-средних:

Ј алгоритм слишком чувствителен к выбросам, которые могут искажать среднее.

Ј алгоритм может медленно работать на больших базах данных. ¬озможным решением данной проблемы €вл€етс€ использование выборки данных.





ѕоделитьс€ с друзь€ми:


ƒата добавлени€: 2016-11-18; ћы поможем в написании ваших работ!; просмотров: 775 | Ќарушение авторских прав


ѕоиск на сайте:

Ћучшие изречени€:

Ћибо вы управл€ете вашим днем, либо день управл€ет вами. © ƒжим –он
==> читать все изречени€...

532 - | 442 -


© 2015-2023 lektsii.org -  онтакты - ѕоследнее добавление

√ен: 0.008 с.