양자화

AI 개념

약 1분 읽기

AI 모델의 정밀도를 낮춰 크기를 줄이고 추론 속도를 높이는 경량화 기법입니다.

다른 이름

Quantization모델 양자화

상세 설명

양자화(Quantization)는 AI 모델의 가중치를 높은 정밀도(FP32, FP16)에서 낮은 정밀도(INT8, INT4)로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 기법입니다. 약간의 정확도 손실이 발생할 수 있지만, 모델 크기를 2-8배 줄일 수 있어 소비자 하드웨어에서도 대규모 모델을 실행할 수 있게 합니다. GPTQ, GGUF, AWQ 등 다양한 양자화 방법이 있으며, QLoRA처럼 양자화된 모델의 파인튜닝도 가능합니다.

양자화

상세 설명

관련 용어