반응형
히스토그램(Histogram)과 KDE(Kernel Density Estimation)는 데이터 분포를 시각화하는 데 사용되는 두 가지 다른 방법입니다.
- 히스토그램:
- 히스토그램은 데이터를 구간(빈)으로 나누고 각 구간에 속하는 데이터의 빈도를 막대로 나타낸 그래프입니다.
- x축은 데이터 값의 구간, y축은 해당 구간에 속하는 데이터의 빈도를 나타냅니다.
- 주로 데이터의 분포를 파악하고 데이터의 빈도를 시각적으로 확인하는 데 사용됩니다.
- KDE (Kernel Density Estimation):
- KDE는 확률 밀도 함수(probability density function)를 추정하여 데이터 분포를 부드럽게 나타내는 방법입니다.
- 각 데이터 포인트 주변에 커널 함수를 배치하고 이를 합하여 전체 데이터의 분포를 근사화합니다.
- KDE를 사용하면 히스토그램보다 부드러운 분포 곡선을 얻을 수 있으며, 데이터의 연속성을 강조합니다.
- 히스토그램에서는 구간의 경계에서 불연속성이 나타날 수 있지만, KDE는 이러한 불연속성을 완화합니다.
두 방법은 데이터 분포를 시각화하는 목적이 비슷하지만, 히스토그램은 빈도를 구간에 할당하여 표시하고, KDE는 부드러운 확률 밀도 함수로 전체 분포를 나타냅니다. 선택은 분석 목적과 데이터 특성에 따라 다를 수 있습니다.
반응형
'통계학 > 데이터분석' 카테고리의 다른 글
RandomForest와 XGBoost (1) | 2025.04.11 |
---|---|
feature engineering2 (0) | 2024.02.04 |
Feature Engineering (0) | 2024.02.03 |
feature 제외 (0) | 2024.01.28 |
데이터 결측치 처리(Data Imputation) (0) | 2024.01.23 |