파인튜닝 데이터 만들기: 어디서, 어떻게, 무엇을?

1️⃣ 데이터 수집

파인튜닝을 하려면 좋은 데이터가 먼저입니다.
먼저 사용할 수 있는 공개 데이터셋 소스부터 확인해봅시다.

🔍 공개 데이터 수집처

Hugging Face Datasets
전 세계 연구자들이 공개한 다양한 텍스트 데이터셋 모음
AI Hub
한국 정부에서 제공하는 인공지능 학습용 데이터셋 (한국어 특화)

2️⃣ 데이터 생성

공개된 데이터로 충분하지 않거나, 특정 목적/스타일에 맞는 데이터가 필요할 경우 직접 생성해야 합니다.

💡 생성 방법

고성능 LLM 활용 (예: GPT-4, Claude, Gemini 등)
프롬프트를 이용해 instruction 데이터나 Q/A 데이터를 자동 생성
주의점: 데이터 품질 관리
- 중복 제거
- 텍스트 논리성 확인
- 오류 있는 응답 필터링

3️⃣ 데이터 유형 분류

파인튜닝에 사용되는 데이터는 보통 아래 세 가지 유형으로 나뉩니다.

데이터 유형설명예시

Corpus (코퍼스)	단순한 일반 텍스트	뉴스, 위키백과, 기술문서
Instruction Data	입력 → 출력 형태	"요약해줘" → 요약 결과
Q/A Data	질문 → 답변 형태	"이 제품 가격은?" → "5만원입니다."

4️⃣ 어떤 데이터를 준비해야 하나?

파인튜닝 데이터는 **"내가 풀고자 하는 문제를 얼마나 잘 표현하느냐"**가 핵심입니다.

📌 데이터 품질 > 양
사용자의 질문 패턴, 기대 응답 스타일, 도메인 특성을 반영한 데이터가 필요합니다.

예:

의료 상담 모델 → 의료 Q/A + 설명 중심 응답
튜터 챗봇 → 학생 질문 + 학습 피드백

5️⃣ Instruction 데이터는 왜 구하기 어려울까?

대부분 기업 자산으로 공개되지 않음
직접 만들려면 고비용 + 인력 필요

🔄 대안

코퍼스 기반으로 Instruction/Q&A 데이터 생성
- 예: 기술문서 → 질문 생성 → LLM을 통한 답변 생성
합성 데이터 + 실제 데이터 결합
- 모델이 편향되지 않도록, 실제 사용자의 표현/문장을 포함하는 것이 중요

🧠 좋은 모델은 좋은 데이터에서 시작됩니다.
데이터 품질이 곧 모델의 성능입니다.

✅ 요약: 파인튜닝 데이터 제작 체크리스트

단계체크포인트

수집	HuggingFace, AI Hub 등에서 적절한 말뭉치 확보
생성	LLM을 이용해 instruction/Q&A 데이터 생성
분류	Corpus / Instruction / Q&A로 데이터 분류
검증	데이터 품질 점검 (중복, 오류, 논리성 등)
목적성	문제를 잘 표현하는 실전형 데이터 확보

'컴퓨터 과학 > 인공지능' 카테고리의 다른 글

Continuous Pretraining이란? (0)	2025.04.08
대용량 텍스트 요약 기법 비교: Stuff, Map-Reduce, Refine (0)	2025.04.08
LLM 파인 튜닝의 이해 (0)	2025.04.08
GGUF 변환하기 (0)	2025.02.22
ollama에 다른 모델 올리기 (0)	2025.02.22

컴퓨터 공부하는 알파카

파인튜닝 데이터 만들기

파인튜닝 데이터 만들기: 어디서, 어떻게, 무엇을?

1️⃣ 데이터 수집

🔍 공개 데이터 수집처

2️⃣ 데이터 생성

💡 생성 방법

3️⃣ 데이터 유형 분류

4️⃣ 어떤 데이터를 준비해야 하나?

5️⃣ Instruction 데이터는 왜 구하기 어려울까?

🔄 대안

✅ 요약: 파인튜닝 데이터 제작 체크리스트

'컴퓨터 과학 > 인공지능' 카테고리의 다른 글

티스토리툴바

파인튜닝 데이터 만들기

파인튜닝 데이터 만들기: 어디서, 어떻게, 무엇을?

1️⃣ 데이터 수집

🔍 공개 데이터 수집처

2️⃣ 데이터 생성

💡 생성 방법

3️⃣ 데이터 유형 분류

4️⃣ 어떤 데이터를 준비해야 하나?

5️⃣ Instruction 데이터는 왜 구하기 어려울까?

🔄 대안

✅ 요약: 파인튜닝 데이터 제작 체크리스트

'컴퓨터 과학 > 인공지능' 카테고리의 다른 글

'컴퓨터 과학/인공지능' Related Articles

티스토리툴바