관리 메뉴

블로그

[머신러닝] #6 앙상블(Ensemble) 본문

공부/ML

[머신러닝] #6 앙상블(Ensemble)

beenu 2024. 3. 15. 12:26
반응형
  • 여러 개의 모델을 결합하여 훨씬 강력한 모델을 생성하는 기법

1. 보팅(Voting) 

  • 여러 모델들(다른 유형의 알고리즘 기반)의 예측 결과를 투표를 통해 최종 예측 결과를 결정하는 방법
  • 하드 보팅: 다수 모델이 예측한 값이 최종 결괏값
  • 소프트 보팅: 모든 모델이 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 값을 최종 선택

 

2. 배깅(Bagging)

  • Bootstrap Aggregating의 약자
  • 데이터로부터 부트스트랩(중복 추출) 한 데이터로 모델들을 학습시킨 후, 모델들의 예측 결과를 집계해 최종 결과를 얻는 방법
  • 같은 유형의 알고리즘 기반 모델을 사용함
  • 데이터 분할 시 중복을 허용(복원 랜덤 샘플링 방식이라고 함)
  • 범주형 데이터(Categorical Data)는 투표 방식(Voting)으로 결과를 집계
  • 연속형 데이터(Continuous Data)는 평균으로 결과를 집계
  • Random Forest
    • 대표적인 배깅 알고리즘
    • Random의 의미
      • 랜덤하게 데이터를 샘플링
      • 무작위로 뽑은 n개의 Feature들 중에서 가장 정보이득이 큰 Feature를 기준으로 트리 분할(Feature가 랜덤)

 

3. 부스팅(Boosting)

  • 같은 유형의 알고리즘 기반 모델 여러 개가 순차적으로 학습 수행
  • 이전 모델이 제대로 예측하지 못한 데이터에 가중치를 부여해서 다음 모델이 학습과 예측 수행
  • 예측 성능이 뛰어남
  • 배깅에 비해 성능이 좋지만, 속도가 느리고 과적합 발생 가능성이 있음 → 상황에 맞게 적절히 사용해야 함
  • 대표적인 부스팅 알고리즘: XGBoost, LightGBM
    • 결측치 값 자체가 분류 기준이 됨 
    • 오차 예측
      • y = 20, y햇 = 15일 때, 실제값에 대한 오차를 예측하는 것

 

4. 스태킹(Stacking)

  • 여러 모델의 예측 값을 최종 모델의 학습 데이터로 사용하여 예측하는 방법
728x90
반응형