반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- dl
- 그로스해킹
- 데이콘
- 모델링
- 데이터시각화
- 자연어처리
- ERD
- 머신러닝
- DACON
- nlp
- product
- productmarketfit
- 파인튜닝
- 데이터분석
- 태블로
- tableau
- fit
- omtm
- 시각화
- 컴퓨터비전
- pmf
- Computer Vision
- 데이터모델링
- 언어지능딥러닝
- OKR
- 인공지능
- Market
- 딥러닝
Archives
- Today
- Total
블로그
[머신러닝] #6 앙상블(Ensemble) 본문
반응형
- 여러 개의 모델을 결합하여 훨씬 강력한 모델을 생성하는 기법
1. 보팅(Voting)
- 여러 모델들(다른 유형의 알고리즘 기반)의 예측 결과를 투표를 통해 최종 예측 결과를 결정하는 방법
- 하드 보팅: 다수 모델이 예측한 값이 최종 결괏값
- 소프트 보팅: 모든 모델이 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 값을 최종 선택
2. 배깅(Bagging)
- Bootstrap Aggregating의 약자
- 데이터로부터 부트스트랩(중복 추출) 한 데이터로 모델들을 학습시킨 후, 모델들의 예측 결과를 집계해 최종 결과를 얻는 방법
- 같은 유형의 알고리즘 기반 모델을 사용함
- 데이터 분할 시 중복을 허용(복원 랜덤 샘플링 방식이라고 함)
- 범주형 데이터(Categorical Data)는 투표 방식(Voting)으로 결과를 집계
- 연속형 데이터(Continuous Data)는 평균으로 결과를 집계
- Random Forest
- 대표적인 배깅 알고리즘
- Random의 의미
- 랜덤하게 데이터를 샘플링
- 무작위로 뽑은 n개의 Feature들 중에서 가장 정보이득이 큰 Feature를 기준으로 트리 분할(Feature가 랜덤)
3. 부스팅(Boosting)
- 같은 유형의 알고리즘 기반 모델 여러 개가 순차적으로 학습 수행
- 이전 모델이 제대로 예측하지 못한 데이터에 가중치를 부여해서 다음 모델이 학습과 예측 수행
- 예측 성능이 뛰어남
- 배깅에 비해 성능이 좋지만, 속도가 느리고 과적합 발생 가능성이 있음 → 상황에 맞게 적절히 사용해야 함
- 대표적인 부스팅 알고리즘: XGBoost, LightGBM
- 결측치 값 자체가 분류 기준이 됨
- 오차 예측
- y = 20, y햇 = 15일 때, 실제값에 대한 오차를 예측하는 것
4. 스태킹(Stacking)
- 여러 모델의 예측 값을 최종 모델의 학습 데이터로 사용하여 예측하는 방법
728x90
반응형
'공부 > ML' 카테고리의 다른 글
[머신러닝] 불균형 클래스 (3) | 2024.03.15 |
---|---|
[머신러닝] #5 Hyperparameter 튜닝 (0) | 2024.03.14 |
[머신러닝] #4 K-Fold Cross Validation (0) | 2024.03.14 |
[머신러닝] #3 기본 알고리즘 - 1(Linear Regression, K-Nearest Neighbor, Decision Tree, Logistic Regression) (0) | 2024.03.13 |
[머신러닝] #2 성능평가 (0) | 2024.03.12 |