Machine Learning

의사결정나무 - Decision Tree

robin0309 2020. 6. 23. 14:15

정의 :

장점 -> 해석력이 높음, 직관적, 범용성(X,Y가 연속형이든 분류형이든 다 활용 가능)

단점 -> 높은 변동성(sample 이 조금만 바뀌어도 트리구조 바뀜). 샘플에 민감함

class: 분류  value : 평균값

 

Cross Entropy : -plog2p-(1-p)log2(1-p)

-> 직관정 정의는 0또는 1일 확률이 최소고 0.5일 확률이 최대가 되게 하는 함수

Information Gain = Entropy before - Entropy after

-> information gain 값으로 각각의 변수들 평가

-> 각각의 노드에 대해 다음 식 처럼 가중치를 주어 계산

information gain 값을 outlook humidity wind에 대해 각각 구하고 IG 가 가장 높은 변수를 첫번째 노드로 선택

그 뒤에 humidity wind 에 대해 IG를 구하고 높은 관측치를 그 다음 노드로 선택

반응형