dev.Log
모델 양자화 (Quantization) 이란? 본문
Meta-Llama-3.1-8B-Instruct-Q2_K.gguf
이런 라마 LLM 양자화 모델파일 쓰는데 크기 계산법이 궁금해졌다.
항목 | 의미 |
Meta-Llama-3.1 | Meta 사의 LLaMA 3.1 버전 |
8B | 파라미터 수가 약 80억(8 billion) |
Instruct | 사용 목적: 사용자 질문 응답용 fine-tuned 모델 |
Q2_K | 양자화 방식: Q2_K (2비트 양자화 + K-샘플 클러스터링) |
.gguf | GGUF 포맷 (GPTQ, GGML 기반의 추론용 포맷) |
모델 양자화 : 딥러닝 모델의 연산과 파라미터를 더 적은 비트 수로 표현하는 기법.
32비트 (float32)의 부동소수점 데이터를 8비트(int8)이나 16비트(float16)같은 저정밀 형식으로 바꾸는 것을 의미
Q. 왜 양자화를 할까?
1. 모델 크기 축소
2. 추론 속도 향상 -> 저비트 연산은 더 빠르게 계산됨
3. 메모리 사용량 감소 -> 모바일, 엣지 디바이스 등에서 중요
4. 전력 소비 감소
'인공지능' 카테고리의 다른 글
프롬프팅 확장 테크닉 (2) | 2024.12.14 |
---|---|
프롬프팅테크닉 (1) | 2024.11.19 |
CTC (Connectionist Temporal Classification) (0) | 2024.11.18 |
Machine Learning (1) | 2024.11.02 |
Comments