Activation-aware Weight Quantization

데보션·2024년 7월 8일·00

LLM양자화AWQActivation-aware Weight Quantization모델 서빙FriendlyAI

AI 요약

Beta

이 글은 A닷에서 자체 파인튜닝한 LLM 모델을 서빙하는 과정에서 발생하는 비용 및 성능 문제에 대한 대응 방안으로 모델 양자화 기법 중 하나인 AWQ(Activation-aware Weight Quantization)를 소개합니다. AWQ는 기존의 Weight 값 기반 양자화 방식과 달리, 가장 큰 오차를 유발하는 Weight를 식별하고 이를 줄이는 데 집중하는 것이 특징입니다.

AWQ는 구현이 간단하고, Activation 통계 정보를 활용하여 양자화 오차를 줄이며, Gradient 계산이 불필요하다는 장점을 가집니다. 또한, GPTQ 대비 적은 양의 Calibration 데이터만으로도 높은 성능을 기대할 수 있어, 모델 서빙 환경에서 효율적인 양자화 기법으로 주목받고 있습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기