Machine Learning
의사결정나무 - Decision Tree
robin0309
2020. 6. 23. 14:15
정의 :
장점 -> 해석력이 높음, 직관적, 범용성(X,Y가 연속형이든 분류형이든 다 활용 가능)
단점 -> 높은 변동성(sample 이 조금만 바뀌어도 트리구조 바뀜). 샘플에 민감함
class: 분류 value : 평균값
Cross Entropy : -plog2p-(1-p)log2(1-p)
-> 직관정 정의는 0또는 1일 확률이 최소고 0.5일 확률이 최대가 되게 하는 함수
Information Gain = Entropy before - Entropy after
-> information gain 값으로 각각의 변수들 평가
-> 각각의 노드에 대해 다음 식 처럼 가중치를 주어 계산
information gain 값을 outlook humidity wind에 대해 각각 구하고 IG 가 가장 높은 변수를 첫번째 노드로 선택
그 뒤에 humidity wind 에 대해 IG를 구하고 높은 관측치를 그 다음 노드로 선택
반응형