본문 바로가기

통계학/통계이론

Generalized Linear Model (GLM)

반응형

🎯 1. 기본 아이디어부터 시작해보자

✏️ 선형 모델(Linear Model)은 뭘까?

아마 수학 시간에 이런 식으로 배운 적 있을 거야:

y=w⋅x+by = w \cdot x + b

  • x는 입력(예: 공부 시간)
  • y는 결과(예: 시험 점수)
  • w, b는 기울기와 절편

👉 이건 예측하려는 결과(y)가 숫자일 때 쓰는 **선형 회귀(Linear Regression)**야!


🧠 그런데 현실에서는 이런 경우도 있지?

🎯 예시 1: 어떤 사람이 시험에 합격할지 (예/아니오)?

→ 결과는 숫자가 아니라 **0 또는 1 (이진)**이야.

🎯 예시 2: 하루에 고객이 몇 명 올지?

→ 결과는 0, 1, 2, 3처럼 **정수값(횟수)**이야.

👉 이럴 때는 그냥 선형 모델로는 맞추기 어려워.
→ 그래서 나오는 게 바로 **GLM (일반화 선형 모델)**이야!


🧩 2. GLM은 어떻게 생겼을까?

GLM은 3가지 구성 요소를 가진다:

구성 요소역할예시
1. 선형 예측기 η=w⋅x+b\eta = w \cdot x + b 입력을 조합해서 예측을 만듦 공부 시간 × 가중치 + 절편
2. 링크 함수 g(μ)=ηg(\mu) = \eta 예측 결과를 적당히 바꿔서 결과와 연결 예: sigmoid, log
3. 확률 분포 예측값이 어떤 분포를 따른다고 가정 예: 정규분포, 베르누이분포, 푸아송분포

🎲 3. 예시로 하나씩 살펴보자


📌 예시 1: 로지스틱 회귀 (Logistic Regression)

항목설명
목적 어떤 사건이 일어날 확률 (0 또는 1) 예측
선형 예측기 η=w⋅x+b\eta = w \cdot x + b
링크 함수 sigmoid 함수 μ=11+e−η\mu = \frac{1}{1 + e^{-\eta}}
확률 분포 베르누이 분포 (성공 or 실패)

👉 "공부 시간에 따라 합격할 확률은 몇 %일까?" 같은 문제에 좋아.


📌 예시 2: 포아송 회귀 (Poisson Regression)

항목설명
목적 어떤 일이 발생한 횟수 예측
선형 예측기 η=w⋅x+b\eta = w \cdot x + b
링크 함수 log 함수 μ=eη\mu = e^{\eta}
확률 분포 포아송 분포 (카운트 값 예측에 적합)

👉 "하루 동안 손님이 몇 명 올까?"를 예측하는 데 쓰여.


📌 예시 3: 선형 회귀 (Linear Regression)

항목설명
목적 결과가 연속적인 숫자 (예: 점수)
선형 예측기 η=w⋅x+b\eta = w \cdot x + b
링크 함수 항등 함수 μ=η\mu = \eta (그대로 씀)
확률 분포 정규 분포 (오차가 평균 주변에 퍼짐)

👉 기본 중의 기본 모델이야.


✅ 핵심 요약!

항목설명
GLM이란? 선형 모델을 확장해서 다양한 결과(확률, 횟수 등)를 예측할 수 있게 만든 모델
왜 필요해? 세상은 0~1 확률, 정수 횟수 등 다양한 형태의 결과를 갖기 때문!
어떻게 구성돼? 선형 예측기 + 링크 함수 + 확률 분포
대표 모델들 선형 회귀, 로지스틱 회귀, 포아송 회귀 등

✨ 초간단 기억법

"선형 모델에 링크 함수와 확률 분포를 더해서 더 똑똑하게 만든 모델!"
→ 그게 바로 GLM!

반응형