본문 바로가기

통계학/데이터분석

트리 기반 앙상블 모델 4종 비교(RandomForest, XGBoost, LightGBM, CatBoost)

반응형

좋아! RandomForest, XGBoost, LightGBMCatBoost까지 포함해서 트리 기반 앙상블 모델 4종 비교를 깔끔하게 정리해볼게. Boosting 계열의 대표 주자들을 비교하는 건 실제 실무에서 매우 유용하니까!


✅ 트리 기반 앙상블 모델 4종 비교

항목RandomForestXGBoostLightGBMCatBoost
앙상블 방식 Bagging Boosting Boosting Boosting
트리 구성 전체 데이터에서 병렬로 여러 트리 생성 이전 트리의 오류를 보완하며 순차적으로 트리 생성 Gradient 기반 순차 트리 생성 + 리프 중심 성장 Gradient 기반 순차 트리 생성 + 카테고리 처리 강화
학습 속도 빠름 중간 매우 빠름 (Histogram 기반) 중간 (속도 개선됨)
예측 성능 중간~좋음 좋음~최상 좋음~최상 좋음~최상
하이퍼파라미터 튜닝 적음 많음 많음 적당
과적합 방지 샘플링 정규화, learning rate 등 Leaf-wise 성장 시 과적합 주의 기본적으로 과적합 방지 설계
결측값 처리 직접 처리 필요 자동 처리 자동 처리 자동 처리 (매우 강력)
범주형 처리 인코딩 필요 인코딩 필요 인코딩 필요 인코딩 없이도 처리 가능 (주요 강점)
병렬 처리 O (트리 병렬) O (레벨 병렬화) O (Histogram 병렬화) O
해석력 쉬움 중간 중간 중간

🔍 모델별 대표 강점 요약

  • RandomForest
  • 단순하고 빠르며, 과적합에 강하고 해석이 쉬움. 대체로 좋은 베이스라인 모델.
  • XGBoost
  • 성능과 유연성의 황금비. 성능 극대화가 필요할 때 가장 많이 사용됨.
  • LightGBM
  • 대용량 데이터에 강력. 빠른 학습 속도와 낮은 메모리 사용. 다만 리프 중심 성장으로 과적합 주의.
  • CatBoost
  • 카테고리형 변수 자동 처리가 탁월. 결측치나 인코딩 처리 없이 바로 사용 가능. 데이터 전처리 비용 ↓

💡 사용 상황 추천

상황추천 모델
처음 시도하는 베이스라인 모델 RandomForest
대회 등에서 성능이 중요한 경우 XGBoost / LightGBM
데이터셋이 크고 빠른 학습이 필요한 경우 LightGBM
범주형 피처가 많고 전처리 시간 줄이고 싶은 경우 CatBoost
해석력이 중요한 경우 (설명 가능한 AI) RandomForest / XGBoost (Shap 조합 가능)

 

반응형

'통계학 > 데이터분석' 카테고리의 다른 글

shap조합  (0) 2025.04.11
트리 모델 하이퍼 파라미터 튜닝  (0) 2025.04.11
RandomForest와 XGBoost  (1) 2025.04.11
feature engineering2  (0) 2024.02.04
히스토그램과 KDE(ViolinPlot)의 차이점  (1) 2024.02.03