본문 바로가기

통계학/통계이론

최대 우도 추정법(Maximum Likelihood Estimation, MLE)이란?

반응형

🎯 최대 우도 추정법이란?

"관측된 데이터가 가장 잘 나올 수 있게 만드는 확률(모델)의 파라미터를 찾는 방법"

쉽게 말해:

우리가 어떤 상황에서 실제로 데이터를 관찰했어.
그 데이터가 가장 자연스럽게 나올 것 같은 확률을 계산해보고,
**그 확률이 최대가 되는 조건(모델의 파라미터)**를 찾는 거야.


🍀 비유로 이해해보자: 주사위 예시

🎲 예시: 주사위를 10번 던졌더니 이런 결과가 나왔어:

[6, 6, 6, 6, 6, 6, 6, 6, 6, 6]

 

이제 질문:

이 주사위는 공정한 주사위일까? (각 면이 나올 확률이 1/6인?)

👀 데이터(관측값)를 봤을 때, 모든 결과가 6이야!
그러면 우리는 이렇게 생각할 수 있어:

"공정한 주사위라면 6이 10번 연속 나올 확률은 너무 낮지 않아?"
"6만 나오는 특수 주사위라고 가정하는 게 더 그럴듯하지 않을까?"

이때,

  • **각 가정(=확률 분포, 모델)**에 대해
  • **이 데이터가 나올 확률(=우도)**을 계산해 보고,
  • 그 확률이 가장 큰 모델의 파라미터를 채택하는 것
    → 이게 최대 우도 추정이야!

 

📌 수학적으로 간단히 말하면

예를 들어 어떤 데이터 x₁, x₂, ..., xₙ이 있고,
어떤 확률 분포(모델)가 θ라는 파라미터에 따라 결정된다고 해보자.

  • 이 데이터가 나올 우도 =
    P(x₁, x₂, ..., xₙ | θ)
  • 이걸 최대화하는 θ를 찾자!
    → θ_MLE = argmax_θ P(data | θ)

✅ 핵심 요약

항목설명
목표 실제 데이터를 가장 잘 설명하는 확률 모델(파라미터) 찾기
하는 일 데이터가 나올 가능성(우도)를 계산하고, 그걸 최대화
사용 예 주사위 확률 추정, 동전 앞/뒤 확률, 회귀계수 추정 등
의미 "지금 이 데이터를 가장 자연스럽게 설명할 수 있는 상황은 이거야!"

🧠 쉽게 기억하는 문장

"이 데이터가 나올 확률이 가장 높게 만드는 모델이 정답이다!"
(= 우도를 최대화 = 최대 우도 추정)

 

 

 

좋아! 이번엔 **로지스틱 회귀(Logistic Regression)**에서 **최대 우도 추정(Maximum Likelihood Estimation, MLE)**이 어떻게 사용되는지를 하나하나 쉽게 설명해볼게!

 

 

🎯 먼저, 로지스틱 회귀가 뭐야?

어떤 일이 일어날지 **확률(0~1)**로 예측하는 모델이야.
예를 들어:

나이공부 시간시험 합격 여부
18 5시간 합격(1)
17 1시간 불합격(0)

이런 데이터를 보고 새로운 사람이 있을 때 "합격할 확률은 몇 %일까?" 를 예측해주는 모델이야.

로지스틱 회귀는 이 확률을 Sigmoid 함수로 표현해:

P(y=1∣x)=11+e−(w⋅x+b)P(y=1 | x) = \frac{1}{1 + e^{-(w \cdot x + b)}}


💡 자, 이제 최대 우도 추정(MLE)은 왜 필요할까?

우리는 아직 w랑 b (모델 파라미터)를 몰라!
그걸 **"어떻게 정할까?"**가 문제야.

그 해답이 바로:

"현재 주어진 데이터가 나올 확률을 최대화하는 w와 b를 찾자!"

즉,

  • 모델이 "맞는 말"을 하도록
  • 데이터가 실제로 나온 게 자연스럽게 느껴지도록
  • 그럴듯한 확률을 만들어주는 w, b를 찾는 것!

👉 이게 바로 최대 우도 추정이 하는 일이야.


📊 비유로 쉽게 이해해보자!

🧁 디저트 가게에서 손님이 이렇게 말해:

"딸기 케이크가 진짜 많이 팔려요!"

근데 너는 직원으로서, **판매 데이터(0은 안 팔림, 1은 팔림)**를 보고 있어.

케이크 이름판매 여부
딸기 1
딸기 1
딸기 0
초코 0
딸기 1

이걸 보고 너는 딸기 케이크가 팔릴 확률이 몇 퍼센트인지 예측하고 싶어.

  • 그 확률이 데이터와 잘 맞게끔 되면 좋아.
  • 예를 들어 "딸기는 90% 팔릴 확률!"이라고 하면 실제 판매(1,1,0,1...)와 비슷하게 나오겠지.

👉 이런 식으로 예측한 확률과 실제 결과가 얼마나 잘 맞는지를 보고,
그게 제일 잘 맞는 w, b를 찾는 게 로지스틱 회귀의 MLE야!


📌 수식은 어떻게 생겼을까?

MLE에서는 아래처럼 모든 데이터가 나올 확률을 곱해서 하나의 수치로 만들어:

L(w,b)=∏i=1nP(yi∣xi;w,b)L(w, b) = \prod_{i=1}^{n} P(y_i | x_i; w, b)

그리고 이걸 최대화해!
(실제로는 계산 편의상 log를 씌워서 로그 우도로 풀어)


✅ 핵심 요약!

항목설명
로지스틱 회귀 입력에 대해 어떤 사건이 일어날 확률을 예측하는 모델
MLE의 역할 그 확률이 실제 데이터와 제일 잘 맞도록 모델의 파라미터(w, b)를 찾음
왜 필요해? 그래야 예측이 정확하고 신뢰할 수 있음
어떻게 찾아? "이 데이터가 나올 확률이 최대가 되도록" 수학적으로 계산

🧠 초간단 기억법

"실제 관측된 데이터가 나올 확률을 제일 높게 해주는 모델 파라미터를 찾는 것!"
이게 로지스틱 회귀에서의 최대 우도 추정!

반응형

'통계학 > 통계이론' 카테고리의 다른 글

Generalized Linear Model (GLM)  (1) 2025.04.10
우도함수 (Likelihood)를 쉽게 이해해보자  (0) 2025.04.10