반응형
1. Attention이란?
**Attention(어텐션)**은
"많은 정보 중에 중요한 것에 집중하는 기술" 이야.
모든 입력을 똑같이 다루지 않고,
특히 필요한 부분을 더 집중해서 처리해.
2. 쉽게 이해하는 비유: 시험 공부할 때 집중하는 부분
- 시험공부할 때 교과서를 처음부터 끝까지 다 똑같이 외우는 게 아니라,
- 선생님이 "이거 중요해!"라고 강조한 부분, 굵은 글씨, 밑줄 친 부분에 집중해서 외우지?
👉 Attention은 딱 그거야.
전체를 보되, 중요한 부분에 더 집중하는 것!
3. Attention 구조: 구성요소 설명
Attention은 세 가지 핵심 덩어리로 구성돼.
구성요소뜻쉽게 이해하는 비유
Query(질문) | "내가 지금 알고 싶은 것" | "시험에 뭐가 나올까?" 질문하는 나 |
Key(열쇠) | "각 입력 데이터가 가진 특징" | 교과서 각 문단에 붙어있는 제목들 |
Value(값) | "진짜 필요한 정보" | 교과서 본문 내용 |
구조 흐름
- Query가 Key를 쳐다보면서
"어디가 나한테 중요한지" 비교해. - **중요한 정도(가중치)**를 계산해.
- 중요한 부분의 Value를 많이 보고, 덜 중요한 부분은 조금만 본다.
4. Attention 작동 흐름 요약
- Query와 Key를 비교해서 "집중할 정도(가중치)"를 계산한다.
- 이 가중치를 각 Value에 곱한다.
- 곱한 것들을 다 더해서 최종 결과를 만든다.
5. 심화: "가중치(Attention Score)" 계산은 어떻게 할까?
- Query와 Key를 **벡터(숫자 묶음)**로 만든 다음,
- 둘 사이의 "유사도(얼마나 비슷한지)"를 계산해.
- 주로 **Dot Product(내적)**를 써서 비슷한 정도를 숫자로 나타낸다.
💡 **Dot Product(내적)**는 쉽게 말하면, "방향이 비슷할수록 값이 커지는 계산법"이야.
6. 다양한 Attention 종류
종류특징
Soft Attention | 모든 입력을 다 보고 가중치를 나눠서 부여 |
Hard Attention | 특정 입력만 딱 하나 골라서 본다 (확률적 방식) |
Self-Attention | 입력끼리 서로 비교해서 중요한 걸 찾는다 (Transformer에 사용) |
7. Attention이 왜 중요할까?
- 순서가 긴 데이터(긴 문장, 긴 이야기)를 처리할 때,
어디에 집중해야 할지 스스로 판단할 수 있다. - 덕분에 딥러닝 모델이 훨씬 더 정교하고 똑똑하게 동작할 수 있게 됐다.
- 특히, Transformer(BERT, GPT 같은 모델!)가 Attention을 기본 골격으로 사용한다.
8. 한 줄 요약
Attention은 '중요한 정보에 집중하는 능력'을 모델에 심어주는 기술이다!
🔥 요약 정리
✅ Attention은 Query, Key, Value로 구성된다.
✅ Query와 Key를 비교해 **중요도(가중치)**를 계산한다.
✅ 그 가중치로 Value를 조합해 최종 결과를 만든다.
✅ Self-Attention은 입력끼리 서로 비교하는 특별한 Attention이다.
✅ Attention은 현대 딥러닝(특히 자연어 처리)의 핵심 기술이다.
반응형
'컴퓨터 과학 > 인공지능' 카테고리의 다른 글
Transformer란? (1) | 2025.04.27 |
---|---|
Self-Attention이란? (0) | 2025.04.27 |
Recurrent Neural Network란? (1) | 2025.04.27 |
Hidden State란? (0) | 2025.04.27 |
Sequential Data와 Time Series Data란? (0) | 2025.04.27 |