K-means , medoids Clustering (unsupervised learning)

Machine Learning

K-means , medoids Clustering (unsupervised learning)

robin0309 2020. 6. 28. 14:33

1. K-means Clustering

-> 유사한 데이터 끼리 뭉치게 해서 그룹의 특성을 규명하는 것이 주목적이지 classification의 목적은 강하지 않음

-> k를 설정 초기 좌표는 Random

해당 데이터가 다른데이터로 할당 되지않을 때까지 계속 진행 -> 직관적인 장점

*거리 측정 기준

* 가장 좋은예시는 사전의 군집갯수(K)를 알고 시작하는것 ex) 기사 -정치,연예,스포츠

하지만 보통의 경우에는 사전 군집갯수를 알 수 없음

inertia -> 군집내 분산이 적어지는 시점이 최적의 K

k-means clustering 단점

-> 데이터의 차원이 커질 수록 잘 맞지않음 . 2차원 3차원 까지는 알 수 있지만 4차원 부터는 거리에 대한 개념이

무감각해짐(컴퓨터도) 물론 구할 수는 있지만 실제로 가까운지에 대해서는 차원이 증가함에 따라 완전히 무의미해짐

그래서 거리를 기반으로하는 군집분석은 잘 맞지않을 확률이 커짐

위 그림처럼 k-means 보다는 조금 좋은 모습을 보인다 특히 이상치에 있어서는 좀 더 강건한 모습을 보임

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning' 카테고리의 다른 글

Shap value - 중요 변수 추출 방법 (0)	2020.06.30
Hierachical , DBscan Clustering (0)	2020.06.28
KNN - K-nearest neighborhood (0)	2020.06.27
나이브 베이즈 분류기 - Naive Bayesian classifier (0)	2020.06.25
SVM - Support Vector Machine (0)	2020.06.23

현재글K-means , medoids Clustering (unsupervised learning)

Data Science 관련 지식들에 대해 정리하는 공간입니다.

LEVEL2, LEVEL1, Classification, deeplearning, ARIMA, 딥러닝, 강화학습, Kaggle, 추천시스템, Word2Vec, 앙상블, LEVEL 1, feature importance, matrix factorization, deepfm, 알고리즘, Keras, 프로그래머스, pytorch, 시계열,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

AI/ML 기술 블로그