💡 AI 모델 경량화와 효율화를 위한 3가지 핵심 기술 비교

Quantization, LoRA, SLLM 개념 정리 및 장단점 비교

🧮 1. 양자화 (Quantization)

항목내용

🎯 목적	모델 크기 축소 및 실행 효율성 향상
⚙️ 방법	모델 파라미터를 32-bit → 8-bit 또는 4-bit 등 저비트로 변환
✅ 장점	- 연산 속도 향상 - 메모리/전력 소모 감소 - 모바일 및 엣지 디바이스에 적합
⚠️ 단점	- 정확도 손실 가능 - 고정소수점 연산 시 품질 저하 우려 - 양자화 인식 훈련(QAT) 필요 가능성

항목내용

🎯 목적	기존 LLM에 대한 효율적 파인튜닝
⚙️ 방법	원본 파라미터는 고정하고, 일부 레이어에 저차원 행렬(A·B)을 추가하여 조정
✅ 장점	- 전체 파라미터 1% 이하만 학습 - 원본 모델 보존 가능 (탈착식) - A/B 테스트 및 버전 관리 유리 - Multi-LoRA 구성 가능
🧠 적용 예시	도메인 특화 모델 튜닝, 화풍/스타일 학습 등
🔗 참고	LoRA 논문 쉽게 설명한 블로그

항목내용

🎯 목적	자원이 제한된 환경에서도 활용 가능한 경량 LLM 개발
⚙️ 방법	모델 구조 간소화 + 파라미터 수 축소 + 최적화 설계
✅ 장점	- 실행 속도 빠름 - 모바일/IoT/엣지 디바이스에서 작동 가능 - 실시간 응답 처리에 적합
⚠️ 단점	- 복잡한 작업에서는 정확도나 성능 한계 - 큰 LLM에 비해 유연성 낮을 수 있음

상황추천 기술