앙상블- Stacking , ensemble 의 ensemble

Machine Learning

robin0309 2020. 6. 18. 17:43

Stacking

Meta Learner라고 부르며, 다양한 모델을 결합하여 사용하는 기법

1.stacking은 비효율적(학습시간이 오래걸림)이지만 성능면에서 좋음

2. 각 fold별로 여러개 모델을 만들고 하나의 fold(학습,검증) 에 대해 예측을하고

예측 값으로 새로운 컬럼을 추가함 -> 이것을 5fold 반복

3. 기존의 학습 데이터에 + 각 모델별 prediction값을 추가해서 학습,검증데이터를 만듬

4. 이 새로운 학습데이터에대해 다시한번 학습시키고 새로운 검증데이터에서 예측을함

5. 기존 feature 사용하지 않고 각 모델별 prediction 값만을 사용하기도 하는데 이경우는 일반적으로regression모델사용

Ensemble의 Ensemble -> 새로 만들어낸 개념

1. ensemble 모델을 gb를 자체를 하나의 base learner로 보자

2. 배깅의 컨셉을 사용, 데이터를 복원 추출

3. 생각보다 성능이 좋음 . 복잡한 모델은 항상 부스팅(LIGHT GBM -> XGB보다 속도나 성능이좋고 cat보다활용이편함)

4. 부스팅 계열 알고리즘은 하이퍼 파라미터에 민감한 경향이 있음

5. 하이퍼 파라미터 튜닝과 관계없이(덜 민감하게) 성능이 좋아짐(앙상블의 앙상블사용시)

6. Regularization 을 할때도 하이퍼파라미터 추가하고 검증하는데 힘이 들고 시간이 듦