앙상블(Ensemble)은 서로 다른 여러 모델의 예측 결과를 바탕으로 새로운 모델을 만들어 더 정확한 예측 결과를 도출해내는 방법을 말합니다. 다수의 모델의 결과를 통해 예측을 진행하기에 단일 모델보다 신뢰성이 높은 예측 결과를 얻을 수 있습니다.
앙상블
1. 보팅(Voting)
보팅은 서로 다른 알고리즘의 예측 결과를 투표하여 최종 예측 결과를 선정하는 방식입니다. 하드 보팅은 다수의 분류기가 예측한 결괏값을 최종 결과로 선정하는 방법이고 소프트 보팅은 모든 분류기가 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 레이블 값을 최종 결과로 선정합니다.
- 보팅은 다음과 같은 하이퍼 파라미터를 가지고 있습니다.
1. estimators: 보팅에 사용될 여러 classifier 객체를 튜플로 입력
2. voting: hard와 soft중 하나를 선택합니다. 초기값은 hard로 설정되어있습니다.
2. 배깅(Bagging)
여러 개의 데이터셋을 중첩되게 분리하는 부트 스트래핑 기법을 사용해 예측값을 구하는 방법입니다.
- Cagegorical Data: 다수결 투표 방식으로 결과를 집계
- Countinuous Data: 평균값 집계
- 과적합(Overfitting) 방지에 효과적(학습 데이터가 충분하지 않더라도 충분한 학습효과)
즉 보팅은 같은 데이터셋에 대하여 각각 다른 알고리즘을 이용한 분류기 결합 방식이고 배깅은 데이터 샘플링을 각자 다르게 하여 같은 알고리즘을 이용한 분류기 학습 수행 방식을 가집니다.
Random Forest
배깅의 대표적인 모델인 Decision Tree를 base 모델로 사용하는 배깅이 있습니다. 랜덤 포레스트는 변수를 무작위로 선택하여 각각의 tree마다 변수가 다르게 들어가도록 변수의 수를 제한합니다.
앙상블 모델 중 비교적 빠른 수행 속도와 높은 예측 성능을 가지며 오버피팅을 감소시키지만 튜닝에 너무 많은 시간 소모가 됩니다.
'BOAZ > 데이터 분석' 카테고리의 다른 글
5. RNN and LSTM (0) | 2022.08.24 |
---|---|
4. CNN (0) | 2022.08.18 |
2. Decision Tree and SVM (0) | 2022.08.03 |
[핸즈온 머신러닝] 3장 (0) | 2022.07.31 |
1. Classification and Regression (0) | 2022.07.28 |