기본 개념
* 개별 샘플을 군집으로 간주하여. 거리가 가장 가까운 두 군집을 순차적으로 묶는 방식으로 큰 군집을 생성
군집 간 거리 측정 법
1. 최단 연결 법 (가장 가까운 샘플간의 거리를 군집간의 거리로 보는 법)
2. 최장 연결 법 (가장 먼 샘플간의 거리를 군집간의 거리로 보는 법)
3. 평균 연결 법 (전체 거리에 대한 평균 거리를 군집간의 거리로 보는 법)
4. 중심 연결 법 (각 군집에 대해 중심을 구하고 중심간의 거리 계산)
5. 와드 연결법 (c1,c2를 하나의 군집으로 보았을 때의 중심과 각 중심과의 거리를 구하는 방식)
-군집끼리 합쳐졌을 때 어떤 효과가 있는지 까지 측정 가능하여 sckit learn 계층 군집화의 default로 많이 쓰임
6. 덴드로그램
-> 샘플 수 가 많으면 덴드로그램은 쓸 수가 없음
* 결론
* 계층적 군집화 사용 함수
반응형
'Machine Learning' 카테고리의 다른 글
Cost sensitve model (cutoff 설정) (0) | 2021.04.01 |
---|---|
빈발 패턴 탐색 (0) | 2021.01.01 |
군집화 (Clustering ) (0) | 2020.12.28 |
Permutation Feature Importance (0) | 2020.12.15 |
Featrue Importance(변수 중요도) - 트리 기반 모델 (0) | 2020.12.15 |