앙상블 - Bagging
Ensemble -> 조화라는 사전적인 의미
Ensemble learning
1.여러개의 기본모델(예측모형)을 생성한 후 이 모델의 예측 결과를 종합하여 하나의 최종 예측 결과를 도출해 내는 법
2. 다중 분류자 조합 기법
* 기본모델 -> weak learner , classifier, base learner , single learner
1. 배깅(bagging) -> Bootstrap aggregating
Bootstrap( 원본데이터에서 중복을 허용하여 무작위로 N개의 데이터 추출한다는 의미)
(1) 기계 학습 알고리즘의 안정성과 정확도를 향상시키기 위해 고안 샘플을 여러번 뽑아(bootstrap)
각 모델을 학습시켜 결과를 집계(aggregating)
(추출 되지 않은 나머지 것들의 error 율 계산 -> 평균을 냄 -> out of bag error -> 남는 data를 검증 data로 씀)
( 각 데이터가 충분히 큰경우 부트스트랩 표본에서 제외될 확률은 약 36%)
개념
1. 원본 데이터로부터 다수의 부트스트랩 데이터를 추출하여 부트스트랩 데이터마다 분류기를 생성 한 후 다수결을
통해 최종 예측 모델을 도출하는 앙상블 기법
2. 크기가 같은 표본을 여러 번 단순 랜덤 복원 추출하여 각 표본에 대해 분류기를 생성하고 그 결과를 앙상블 하는 방법
배깅의 단점
1. 복원 추출이므로 독립이라는 보장이 없음 (중복이 가능)
2. 공분산이 0이라는 조건을 만족하지 않아 비슷한 Tree가 만들어질 확률이 높음
3. Tree가 증가함에 따라 모델 전체의 분산이 증가할 수 있음 -> 분산을 줄이기 위해 나온 모델 -> RandomForest