본문 바로가기

통계학/데이터분석

트리 기반 앙상블 모델 4종 비교(RandomForest, XGBoost, LightGBM, CatBoost)

컴공카 2025. 4. 11. 21:58

좋아! RandomForest, XGBoost, LightGBM과 CatBoost까지 포함해서 트리 기반 앙상블 모델 4종 비교를 깔끔하게 정리해볼게. Boosting 계열의 대표 주자들을 비교하는 건 실제 실무에서 매우 유용하니까!

✅ 트리 기반 앙상블 모델 4종 비교

항목RandomForestXGBoostLightGBMCatBoost

앙상블 방식	Bagging	Boosting	Boosting	Boosting
트리 구성	전체 데이터에서 병렬로 여러 트리 생성	이전 트리의 오류를 보완하며 순차적으로 트리 생성	Gradient 기반 순차 트리 생성 + 리프 중심 성장	Gradient 기반 순차 트리 생성 + 카테고리 처리 강화
학습 속도	빠름	중간	매우 빠름 (Histogram 기반)	중간 (속도 개선됨)
예측 성능	중간~좋음	좋음~최상	좋음~최상	좋음~최상
하이퍼파라미터 튜닝	적음	많음	많음	적당
과적합 방지	샘플링	정규화, learning rate 등	Leaf-wise 성장 시 과적합 주의	기본적으로 과적합 방지 설계
결측값 처리	직접 처리 필요	자동 처리	자동 처리	자동 처리 (매우 강력)
범주형 처리	인코딩 필요	인코딩 필요	인코딩 필요	인코딩 없이도 처리 가능 (주요 강점)
병렬 처리	O (트리 병렬)	O (레벨 병렬화)	O (Histogram 병렬화)	O
해석력	쉬움	중간	중간	중간

🔍 모델별 대표 강점 요약

RandomForest
단순하고 빠르며, 과적합에 강하고 해석이 쉬움. 대체로 좋은 베이스라인 모델.
XGBoost
성능과 유연성의 황금비. 성능 극대화가 필요할 때 가장 많이 사용됨.
LightGBM
대용량 데이터에 강력. 빠른 학습 속도와 낮은 메모리 사용. 다만 리프 중심 성장으로 과적합 주의.
CatBoost
카테고리형 변수 자동 처리가 탁월. 결측치나 인코딩 처리 없이 바로 사용 가능. 데이터 전처리 비용 ↓

💡 사용 상황 추천

상황추천 모델

처음 시도하는 베이스라인 모델	RandomForest
대회 등에서 성능이 중요한 경우	XGBoost / LightGBM
데이터셋이 크고 빠른 학습이 필요한 경우	LightGBM
범주형 피처가 많고 전처리 시간 줄이고 싶은 경우	CatBoost
해석력이 중요한 경우 (설명 가능한 AI)	RandomForest / XGBoost (Shap 조합 가능)

'통계학 > 데이터분석' 카테고리의 다른 글

shap조합 (0)	2025.04.11
트리 모델 하이퍼 파라미터 튜닝 (0)	2025.04.11
RandomForest와 XGBoost (1)	2025.04.11
feature engineering2 (0)	2024.02.04
히스토그램과 KDE(ViolinPlot)의 차이점 (1)	2024.02.03

티스토리툴바