Bagging/Boosting/Stacking

앙상블 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념 (Bagging/Boosting)

서로 다른 모델을 결합하여 새로운 모델을 만들어 내는 방법 - Stacking

Bagging

- 샘플을 여러번 뽑아 각 모델을 학습시켜 결과를 집계하는 방법

- 먼저 대상 데이터로부터 복원 랜덤 샘플링을 함. 이렇게 추출한 데이터가 일종의 표본집단이 되고 여기에 동일한 모델을 학습시킴. 그리고 학습된 모델의 예측변수들을 집계하여 그 결과로 모델을 생성함. - Bootstrap Aggregating

문제점) 1. 높은 bias - Underfitting / 2. 높은 Variance - Overfitting

앙상블 기법은 이러한 오류를 최소화 하는데 도움이 됨. 특히 Bagging은 각 샘플에서 나타난 결과를 일종의 중간값으로 맞추어 주기 떄문에, Overfitting을 피할 수 있음.

대표적인 Bagging 알고리즘으로 RandomForest 모델이 있음. 원래 단일 DecisionTree 모델은 boundary가 discrete한 모양일 수 밖에 없지만, RandomForest는 여러 트리 모델을 결합하여 이를 넘어설 수 있게 되었음.

티스토리툴바