dev.Log

모델 양자화 (Quantization) 이란? 본문

인공지능

모델 양자화 (Quantization) 이란?

초코푸딩 2025. 4. 22. 23:46

Meta-Llama-3.1-8B-Instruct-Q2_K.gguf

이런 라마 LLM 양자화 모델파일 쓰는데 크기 계산법이 궁금해졌다.

항목 의미
Meta-Llama-3.1 Meta 사의 LLaMA 3.1 버전
8B 파라미터 수가 약 80억(8 billion)
Instruct 사용 목적: 사용자 질문 응답용 fine-tuned 모델
Q2_K 양자화 방식: Q2_K (2비트 양자화 + K-샘플 클러스터링)
.gguf GGUF 포맷 (GPTQ, GGML 기반의 추론용 포맷)

 

모델 양자화 : 딥러닝 모델의 연산과 파라미터를 더 적은 비트 수로 표현하는 기법.

32비트 (float32)의 부동소수점 데이터를 8비트(int8)이나 16비트(float16)같은 저정밀 형식으로 바꾸는 것을 의미 

 

Q. 왜 양자화를 할까?

1. 모델 크기 축소

2. 추론 속도 향상 -> 저비트 연산은 더 빠르게 계산됨

3. 메모리 사용량 감소 -> 모바일, 엣지 디바이스 등에서 중요

4. 전력 소비 감소

'인공지능' 카테고리의 다른 글

프롬프팅 확장 테크닉  (2) 2024.12.14
프롬프팅테크닉  (1) 2024.11.19
CTC (Connectionist Temporal Classification)  (0) 2024.11.18
Machine Learning  (1) 2024.11.02
Comments