반응형
좋아! RandomForest, XGBoost, LightGBM과 CatBoost까지 포함해서 트리 기반 앙상블 모델 4종 비교를 깔끔하게 정리해볼게. Boosting 계열의 대표 주자들을 비교하는 건 실제 실무에서 매우 유용하니까!
✅ 트리 기반 앙상블 모델 4종 비교
항목RandomForestXGBoostLightGBMCatBoost
앙상블 방식 | Bagging | Boosting | Boosting | Boosting |
트리 구성 | 전체 데이터에서 병렬로 여러 트리 생성 | 이전 트리의 오류를 보완하며 순차적으로 트리 생성 | Gradient 기반 순차 트리 생성 + 리프 중심 성장 | Gradient 기반 순차 트리 생성 + 카테고리 처리 강화 |
학습 속도 | 빠름 | 중간 | 매우 빠름 (Histogram 기반) | 중간 (속도 개선됨) |
예측 성능 | 중간~좋음 | 좋음~최상 | 좋음~최상 | 좋음~최상 |
하이퍼파라미터 튜닝 | 적음 | 많음 | 많음 | 적당 |
과적합 방지 | 샘플링 | 정규화, learning rate 등 | Leaf-wise 성장 시 과적합 주의 | 기본적으로 과적합 방지 설계 |
결측값 처리 | 직접 처리 필요 | 자동 처리 | 자동 처리 | 자동 처리 (매우 강력) |
범주형 처리 | 인코딩 필요 | 인코딩 필요 | 인코딩 필요 | 인코딩 없이도 처리 가능 (주요 강점) |
병렬 처리 | O (트리 병렬) | O (레벨 병렬화) | O (Histogram 병렬화) | O |
해석력 | 쉬움 | 중간 | 중간 | 중간 |
🔍 모델별 대표 강점 요약
- RandomForest
- 단순하고 빠르며, 과적합에 강하고 해석이 쉬움. 대체로 좋은 베이스라인 모델.
- XGBoost
- 성능과 유연성의 황금비. 성능 극대화가 필요할 때 가장 많이 사용됨.
- LightGBM
- 대용량 데이터에 강력. 빠른 학습 속도와 낮은 메모리 사용. 다만 리프 중심 성장으로 과적합 주의.
- CatBoost
- 카테고리형 변수 자동 처리가 탁월. 결측치나 인코딩 처리 없이 바로 사용 가능. 데이터 전처리 비용 ↓
💡 사용 상황 추천
상황추천 모델
처음 시도하는 베이스라인 모델 | RandomForest |
대회 등에서 성능이 중요한 경우 | XGBoost / LightGBM |
데이터셋이 크고 빠른 학습이 필요한 경우 | LightGBM |
범주형 피처가 많고 전처리 시간 줄이고 싶은 경우 | CatBoost |
해석력이 중요한 경우 (설명 가능한 AI) | RandomForest / XGBoost (Shap 조합 가능) |
반응형
'통계학 > 데이터분석' 카테고리의 다른 글
shap조합 (0) | 2025.04.11 |
---|---|
트리 모델 하이퍼 파라미터 튜닝 (0) | 2025.04.11 |
RandomForest와 XGBoost (1) | 2025.04.11 |
feature engineering2 (0) | 2024.02.04 |
히스토그램과 KDE(ViolinPlot)의 차이점 (1) | 2024.02.03 |