본문 바로가기

컴퓨터 과학/인공지능

오차 측정 (Loss Measurement)

컴공카 2025. 4. 8. 21:09

각 손실 함수(Loss Function)는 딥러닝 모델의 출력이 정답(label)과 얼마나 차이가 있는지를 측정해주는 지표입니다. 사용되는 손실 함수는 **문제의 종류(회귀, 분류, 임베딩 등)**에 따라 달라지며, 그에 따라 학습 방향도 달라집니다. 아래는 각 손실 함수의 개념 설명과 **사용 시점(사례)**을 정리한 내용입니다.

✅ 오차 측정 (Loss Measurement)

개념: 모델 예측값과 실제 정답값 간의 차이(오차)를 수치로 나타내는 함수.
목적: 손실을 최소화하는 방향으로 파라미터를 업데이트함으로써 모델 성능을 향상시키기 위함.

🔹 1. L1Loss (Mean Absolute Error, MAE)

개념: 예측값과 실제값의 절대 오차의 평균을 계산.L1Loss=1n∑i=1n∣yi−y^i∣L1Loss = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|
특징: 이상치(outlier)에 덜 민감함.
사용 사례:
- 회귀 문제 중 이상치(outlier)가 많거나 민감하지 않은 경우.
- 예: 자동차 가격 예측에서 극단적인 값이 학습에 영향을 덜 미치도록 할 때.

🔹 2. MSELoss (Mean Squared Error)

개념: 예측값과 실제값의 제곱 오차의 평균을 계산.MSELoss=1n∑i=1n(yi−y^i)2MSELoss = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
특징: 오차가 클수록(제곱이므로) 패널티가 커짐 → 이상치에 민감.
사용 사례:
- 일반적인 회귀 문제에서 가장 널리 사용.
- 예: 집값 예측, 온도 예측 등에서 정밀한 예측이 필요한 경우.

🔹 3. CrossEntropyLoss (교차 엔트로피 손실)

개념: 확률 분포(softmax 결과)와 실제 레이블 간의 차이를 측정. 분류 문제에 적합.CE=−∑i=1Cyi⋅log⁡(y^i)CE = - \sum_{i=1}^C y_i \cdot \log(\hat{y}_i)
특징: 정답 클래스 확률을 크게, 나머지를 작게 만드는 방향으로 학습.
사용 사례:
- 이진/다중 분류 문제.
- 예: 이미지 분류(Cat vs Dog), 문장 감정 분석(긍정/부정), MNIST 숫자 분류 등.

🔹 4. KLDivLoss (Kullback-Leibler Divergence Loss)

개념: 두 확률 분포 PP (target)와 QQ (예측) 간의 차이를 측정하는 지표.DKL(P∣∣Q)=∑P(x)log⁡P(x)Q(x)D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}
특징: 정답도 확률 분포일 때 사용. 정답이 one-hot이 아닌 soft label일 경우 유용.
사용 사례:
- Knowledge Distillation (교사 모델의 soft label을 학생 모델이 학습할 때)
- VAE (Variational Autoencoder)에서 잠재 공간 분포 제약을 줄 때

🔹 5. TripletMarginLoss

개념: 세 개의 샘플(anchor, positive, negative) 간의 거리를 이용해 학습.Loss=max⁡(d(a,p)−d(a,n)+margin,0)\text{Loss} = \max(d(a, p) - d(a, n) + \text{margin}, 0)
- aa: Anchor
- pp: Positive (anchor와 같은 클래스)
- nn: Negative (anchor와 다른 클래스)
특징: 임베딩 공간에서 비슷한 것은 가깝게, 다른 것은 멀게 배치함.
사용 사례:
- 얼굴 인식(FaceNet), 추천 시스템, 이미지 검색
- 예: "나"와 친구 A는 가까워야 하고, 모르는 사람 B는 멀어야 함

📊 요약 표

손실 함수주요 목적사용 사례특징

L1Loss	절대 오차 측정	이상치에 덜 민감한 회귀 문제	오차를 직선적으로 반영
MSELoss	제곱 오차 측정	일반적인 회귀 문제	이상치에 민감
CrossEntropyLoss	분류 확률과 정답 비교	이미지/텍스트 분류 등	정답 클래스 확률을 극대화
KLDivLoss	확률 분포 간 차이 측정	Knowledge Distillation, VAE 등	정답도 soft label인 경우
TripletMarginLoss	임베딩 거리 기반 비교	얼굴 인식, 추천, 유사도 기반 검색 등	Anchor-Positive-Negative 구조 필요

'컴퓨터 과학 > 인공지능' 카테고리의 다른 글

CSV 파일 DataLoader로 불러오기 (0)	2025.04.08
PyTorch에서 DataLoader를 쓰는 이유는 뭘까? (0)	2025.04.08
파인튜닝의 대안: PEFT (Parameter-Efficient Fine-Tuning) (0)	2025.04.08
Continuous Pretraining이란? (0)	2025.04.08
대용량 텍스트 요약 기법 비교: Stuff, Map-Reduce, Refine (0)	2025.04.08

티스토리툴바