본문 바로가기
[AI] - Machine Learning

# 9. 앙상블 기법 (Ensemble)

by Bebsae 2021. 10. 28.

지난 포스트에서는 의사 결정 나무에 대해서 다루었다. 의사 결정 나무는 단 하나의 분류기를 사용하지만, 이번 포스트에서는 여러 분류기들을 결합한 방법인 앙상블 기법에 대해 다룰 것이다. 마치 오케스트라처럼 여러 악기가 모여 화음을 이루듯, 여러 분류기들을 결합하는 것이다.

 

P.S) 이미지, 영상, 음성과 같은 비정형 데이터의 분류는 딥러닝이, 정형 데이터에서는 앙상블이 좋은 성능을 낸다.

 

우선 앙상블의 조합 기법 4가지를 간단하게 살펴볼 것이다.

 

1. Voting 기법

Voting 기법

특징 1 : 서로 다른 알고리즘 결합

특징 2 : 전체 데이터 셋을 알고리즘 사이에서 공유

 

2. Bagging 기법

Bagging 기법

특징 1 : 같은 알고리즘 결합

특징 2 : 전체 데이터 셋에 대하여 Bootstraping sampling (복원 추출)을 통해 얻은 샘플 데이터셋들을 각각의 분류기에 적용

ex) RandomForest

 

3. Boosting 기법

특징 1 : 분류기를 순차적으로 학습

특징 2 : 앞에서 분류한 결과가 틀린 데이터에 가중치를 두어 뒤에 있는 분류기가 학습

ex) AdaBoost, GradientBoost, XGBoost, LightGBM

 

4. Stacking 기법

특징 : 여러 분류기가 도출한 결과값을 학습 데이터로 삼아 다른 분류기에 학습 (메타 모델)

 

이번에는 Vote의 2가지 방법에 대해 알아볼 것이다.

 

Hard Voting

하드 보팅은 분류한 클래스의 결과를 다수결로 집계하는 것을 말한다.

 

Soft Voting

소프트 보팅은 각 분류기가 클래스별로 분류할 확률을 집계하여 결론을 도출하는 것을 말한다.

 

이미지 출처 : https://vitalflux.com/hard-vs-soft-voting-classifier-python-example/

댓글