정보이론의 기본적인 가정은
높은 확률의 이벤트는 적은 정보를 갖고있고
적은 확률의 이벤트는 많은 정보를 갖고 있다는 것이다.
또한 독립적으로 발생하는 이벤트의 정보는 단순히 합할수 있다 라는 것이다.
Entropy: 정보의 양에대한 예상치
1. 확률이 발생할 확률이 0이라면 얻을수 있는 정보는 없다. (하지만 확률이 적다면 정보의 가치는 크다.)
2. 2가지 변수에 의해서 발생된 사건은 따로 얻는 정보의 합보다 클수 없다. (만일 두 변수가 독립적이라면 두 정보의 합은 같다.)
3. 특정한 이벤트에서 매번 일어나는 정보의 가치도 0에 가깝다.
4. 여기서 사용하는 로그의 밑은 2이다.
조금더 구체적인 예시를 들어보자
동전을 던질때의 정보량은 어떻게 되는가?
Biased coin같은 경우는 윷을 생각하면 될것이다. (앞면과 뒷면이 나올 확률이 서로 다르다.)
KL divergence는 어떤 두 확률분포가 얼마나 떨어져 있는지 얼마나 비슷한지 측정하는 공식이다.
P라는 분포와 Q라는 분포가 얼마나 떨어져있는지 확인 할때 사용하는 것이다.
P를 데이터라고하고, Q는 우리가 생각하는 가정이라고 생각하자. 그렇게되면 그 둘사이의 오류를 줄여나가는 방향으로 Q를 조정 시켜야 할것이다. 이는 Loss Function으로 사용될수 있음을 이야기한다.
Cross-Entropy: 딥러닝에서 대표적으로 사용되는 Loss Function이다.
여기서 오해 하지 말아야 하는것은 Softmax는 로스가 아니라 단순한 아웃풋을 확률적으로 표현하기위한 단순한 함수라는것을 기억해주면 좋을것 같다.
참고: SKKU | Artificial Intelligence (COM3022) | Lecture3 | Spring2023 | 이장원
'컴퓨터 과학 > 인공지능' 카테고리의 다른 글
Learning Algorithms (0) | 2023.07.12 |
---|---|
Numerical computation (0) | 2023.07.02 |
Bayes' Rule (0) | 2023.07.02 |
Probability (0) | 2023.07.02 |
선형대수학 (0) | 2023.06.29 |