반응형
파인튜닝 데이터 만들기: 어디서, 어떻게, 무엇을?
1️⃣ 데이터 수집
파인튜닝을 하려면 좋은 데이터가 먼저입니다.
먼저 사용할 수 있는 공개 데이터셋 소스부터 확인해봅시다.
🔍 공개 데이터 수집처
- Hugging Face Datasets
전 세계 연구자들이 공개한 다양한 텍스트 데이터셋 모음 - AI Hub
한국 정부에서 제공하는 인공지능 학습용 데이터셋 (한국어 특화)
2️⃣ 데이터 생성
공개된 데이터로 충분하지 않거나, 특정 목적/스타일에 맞는 데이터가 필요할 경우 직접 생성해야 합니다.
💡 생성 방법
- 고성능 LLM 활용 (예: GPT-4, Claude, Gemini 등)
프롬프트를 이용해 instruction 데이터나 Q/A 데이터를 자동 생성 - 주의점: 데이터 품질 관리
- 중복 제거
- 텍스트 논리성 확인
- 오류 있는 응답 필터링
3️⃣ 데이터 유형 분류
파인튜닝에 사용되는 데이터는 보통 아래 세 가지 유형으로 나뉩니다.
데이터 유형설명예시
Corpus (코퍼스) | 단순한 일반 텍스트 | 뉴스, 위키백과, 기술문서 |
Instruction Data | 입력 → 출력 형태 | "요약해줘" → 요약 결과 |
Q/A Data | 질문 → 답변 형태 | "이 제품 가격은?" → "5만원입니다." |
4️⃣ 어떤 데이터를 준비해야 하나?
파인튜닝 데이터는 **"내가 풀고자 하는 문제를 얼마나 잘 표현하느냐"**가 핵심입니다.
📌 데이터 품질 > 양
사용자의 질문 패턴, 기대 응답 스타일, 도메인 특성을 반영한 데이터가 필요합니다.
예:
- 의료 상담 모델 → 의료 Q/A + 설명 중심 응답
- 튜터 챗봇 → 학생 질문 + 학습 피드백
5️⃣ Instruction 데이터는 왜 구하기 어려울까?
- 대부분 기업 자산으로 공개되지 않음
- 직접 만들려면 고비용 + 인력 필요
🔄 대안
- 코퍼스 기반으로 Instruction/Q&A 데이터 생성
- 예: 기술문서 → 질문 생성 → LLM을 통한 답변 생성
- 합성 데이터 + 실제 데이터 결합
- 모델이 편향되지 않도록, 실제 사용자의 표현/문장을 포함하는 것이 중요
🧠 좋은 모델은 좋은 데이터에서 시작됩니다.
데이터 품질이 곧 모델의 성능입니다.
✅ 요약: 파인튜닝 데이터 제작 체크리스트
단계체크포인트
수집 | HuggingFace, AI Hub 등에서 적절한 말뭉치 확보 |
생성 | LLM을 이용해 instruction/Q&A 데이터 생성 |
분류 | Corpus / Instruction / Q&A로 데이터 분류 |
검증 | 데이터 품질 점검 (중복, 오류, 논리성 등) |
목적성 | 문제를 잘 표현하는 실전형 데이터 확보 |
반응형
'컴퓨터 과학 > 인공지능' 카테고리의 다른 글
Continuous Pretraining이란? (0) | 2025.04.08 |
---|---|
대용량 텍스트 요약 기법 비교: Stuff, Map-Reduce, Refine (0) | 2025.04.08 |
LLM 파인 튜닝의 이해 (0) | 2025.04.08 |
GGUF 변환하기 (0) | 2025.02.22 |
ollama에 다른 모델 올리기 (0) | 2025.02.22 |