본문 바로가기

컴퓨터 과학/인공지능

오차 측정 (Loss Measurement)

반응형

각 손실 함수(Loss Function)는 딥러닝 모델의 출력이 정답(label)과 얼마나 차이가 있는지를 측정해주는 지표입니다. 사용되는 손실 함수는 **문제의 종류(회귀, 분류, 임베딩 등)**에 따라 달라지며, 그에 따라 학습 방향도 달라집니다. 아래는 각 손실 함수의 개념 설명과 **사용 시점(사례)**을 정리한 내용입니다.


✅ 오차 측정 (Loss Measurement)

  • 개념: 모델 예측값과 실제 정답값 간의 차이(오차)를 수치로 나타내는 함수.
  • 목적: 손실을 최소화하는 방향으로 파라미터를 업데이트함으로써 모델 성능을 향상시키기 위함.

🔹 1. L1Loss (Mean Absolute Error, MAE)

  • 개념: 예측값과 실제값의 절대 오차의 평균을 계산.L1Loss=1n∑i=1n∣yi−y^i∣L1Loss = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
  • 특징: 이상치(outlier)에 덜 민감함.
  • 사용 사례:
    • 회귀 문제 중 이상치(outlier)가 많거나 민감하지 않은 경우.
    • 예: 자동차 가격 예측에서 극단적인 값이 학습에 영향을 덜 미치도록 할 때.

🔹 2. MSELoss (Mean Squared Error)

  • 개념: 예측값과 실제값의 제곱 오차의 평균을 계산.MSELoss=1n∑i=1n(yi−y^i)2MSELoss = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
  • 특징: 오차가 클수록(제곱이므로) 패널티가 커짐 → 이상치에 민감.
  • 사용 사례:
    • 일반적인 회귀 문제에서 가장 널리 사용.
    • 예: 집값 예측, 온도 예측 등에서 정밀한 예측이 필요한 경우.

🔹 3. CrossEntropyLoss (교차 엔트로피 손실)

  • 개념: 확률 분포(softmax 결과)와 실제 레이블 간의 차이를 측정. 분류 문제에 적합.CE=−∑i=1Cyi⋅log⁡(y^i)CE = - \sum_{i=1}^C y_i \cdot \log(\hat{y}_i)
  • 특징: 정답 클래스 확률을 크게, 나머지를 작게 만드는 방향으로 학습.
  • 사용 사례:
    • 이진/다중 분류 문제.
    • 예: 이미지 분류(Cat vs Dog), 문장 감정 분석(긍정/부정), MNIST 숫자 분류 등.

🔹 4. KLDivLoss (Kullback-Leibler Divergence Loss)

  • 개념: 두 확률 분포 PP (target)와 QQ (예측) 간의 차이를 측정하는 지표.DKL(P∣∣Q)=∑P(x)log⁡P(x)Q(x)D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}
  • 특징: 정답도 확률 분포일 때 사용. 정답이 one-hot이 아닌 soft label일 경우 유용.
  • 사용 사례:
    • Knowledge Distillation (교사 모델의 soft label을 학생 모델이 학습할 때)
    • VAE (Variational Autoencoder)에서 잠재 공간 분포 제약을 줄 때

🔹 5. TripletMarginLoss

  • 개념: 세 개의 샘플(anchor, positive, negative) 간의 거리를 이용해 학습.Loss=max⁡(d(a,p)−d(a,n)+margin,0)\text{Loss} = \max(d(a, p) - d(a, n) + \text{margin}, 0)
    • aa: Anchor
    • pp: Positive (anchor와 같은 클래스)
    • nn: Negative (anchor와 다른 클래스)
  • 특징: 임베딩 공간에서 비슷한 것은 가깝게, 다른 것은 멀게 배치함.
  • 사용 사례:
    • 얼굴 인식(FaceNet), 추천 시스템, 이미지 검색
    • 예: "나"와 친구 A는 가까워야 하고, 모르는 사람 B는 멀어야 함

📊 요약 표

손실 함수주요 목적사용 사례특징
L1Loss 절대 오차 측정 이상치에 덜 민감한 회귀 문제 오차를 직선적으로 반영
MSELoss 제곱 오차 측정 일반적인 회귀 문제 이상치에 민감
CrossEntropyLoss 분류 확률과 정답 비교 이미지/텍스트 분류 등 정답 클래스 확률을 극대화
KLDivLoss 확률 분포 간 차이 측정 Knowledge Distillation, VAE 등 정답도 soft label인 경우
TripletMarginLoss 임베딩 거리 기반 비교 얼굴 인식, 추천, 유사도 기반 검색 등 Anchor-Positive-Negative 구조 필요
반응형