Machine Learning

계층적 군집화

판교데싸 2020. 12. 28. 18:56

기본 개념 

* 개별 샘플을 군집으로 간주하여. 거리가 가장 가까운 두 군집을 순차적으로 묶는 방식으로 큰 군집을 생성

군집 간 거리 측정 법

 

1. 최단 연결 법 (가장 가까운 샘플간의 거리를 군집간의 거리로 보는 법)

 

 

2. 최장 연결 법 (가장 먼 샘플간의 거리를 군집간의 거리로 보는 법)

 

 

3. 평균 연결 법 (전체 거리에 대한 평균 거리를 군집간의 거리로 보는 법)

 

4. 중심 연결 법 (각 군집에 대해 중심을 구하고 중심간의 거리 계산)

 

5. 와드 연결법 (c1,c2를 하나의 군집으로 보았을 때의 중심과 각 중심과의 거리를 구하는 방식)

-군집끼리 합쳐졌을 때 어떤 효과가 있는지 까지 측정 가능하여 sckit learn 계층 군집화의 default로 많이 쓰임

 

6. 덴드로그램 

-> 샘플 수 가 많으면 덴드로그램은 쓸 수가 없음

 

* 결론

 

* 계층적 군집화 사용 함수

반응형

'Machine Learning' 카테고리의 다른 글

Cost sensitve model (cutoff 설정)  (0) 2021.04.01
빈발 패턴 탐색  (0) 2021.01.01
군집화 (Clustering )  (0) 2020.12.28
Permutation Feature Importance  (0) 2020.12.15
Featrue Importance(변수 중요도) - 트리 기반 모델  (0) 2020.12.15
반응형