본문 바로가기

컴퓨터 과학/인공지능

파인튜닝 데이터 만들기

반응형

파인튜닝 데이터 만들기: 어디서, 어떻게, 무엇을?


1️⃣ 데이터 수집

파인튜닝을 하려면 좋은 데이터가 먼저입니다.
먼저 사용할 수 있는 공개 데이터셋 소스부터 확인해봅시다.

🔍 공개 데이터 수집처

  • Hugging Face Datasets
    전 세계 연구자들이 공개한 다양한 텍스트 데이터셋 모음
  • AI Hub
    한국 정부에서 제공하는 인공지능 학습용 데이터셋 (한국어 특화)

2️⃣ 데이터 생성

공개된 데이터로 충분하지 않거나, 특정 목적/스타일에 맞는 데이터가 필요할 경우 직접 생성해야 합니다.

💡 생성 방법

  • 고성능 LLM 활용 (예: GPT-4, Claude, Gemini 등)
    프롬프트를 이용해 instruction 데이터나 Q/A 데이터를 자동 생성
  • 주의점: 데이터 품질 관리
    • 중복 제거
    • 텍스트 논리성 확인
    • 오류 있는 응답 필터링

3️⃣ 데이터 유형 분류

파인튜닝에 사용되는 데이터는 보통 아래 세 가지 유형으로 나뉩니다.

데이터 유형설명예시
Corpus (코퍼스) 단순한 일반 텍스트 뉴스, 위키백과, 기술문서
Instruction Data 입력 → 출력 형태 "요약해줘" → 요약 결과
Q/A Data 질문 → 답변 형태 "이 제품 가격은?" → "5만원입니다."

4️⃣ 어떤 데이터를 준비해야 하나?

파인튜닝 데이터는 **"내가 풀고자 하는 문제를 얼마나 잘 표현하느냐"**가 핵심입니다.

📌 데이터 품질 > 양
사용자의 질문 패턴, 기대 응답 스타일, 도메인 특성을 반영한 데이터가 필요합니다.

예:

  • 의료 상담 모델 → 의료 Q/A + 설명 중심 응답
  • 튜터 챗봇 → 학생 질문 + 학습 피드백

5️⃣ Instruction 데이터는 왜 구하기 어려울까?

  • 대부분 기업 자산으로 공개되지 않음
  • 직접 만들려면 고비용 + 인력 필요

🔄 대안

  • 코퍼스 기반으로 Instruction/Q&A 데이터 생성
    • 예: 기술문서 → 질문 생성 → LLM을 통한 답변 생성
  • 합성 데이터 + 실제 데이터 결합
    • 모델이 편향되지 않도록, 실제 사용자의 표현/문장을 포함하는 것이 중요

🧠 좋은 모델은 좋은 데이터에서 시작됩니다.
데이터 품질이 곧 모델의 성능입니다.


✅ 요약: 파인튜닝 데이터 제작 체크리스트

단계체크포인트
수집 HuggingFace, AI Hub 등에서 적절한 말뭉치 확보
생성 LLM을 이용해 instruction/Q&A 데이터 생성
분류 Corpus / Instruction / Q&A로 데이터 분류
검증 데이터 품질 점검 (중복, 오류, 논리성 등)
목적성 문제를 잘 표현하는 실전형 데이터 확보
반응형