ML model server gpu -> cpu 전환 경험 공유
ML modelGPUCPUmodel servercost savinginference
AI 요약
BetaG마켓 AI 개발팀은 GPU 기반 ML 모델 서버를 CPU 기반으로 전환하여 연간 약 4억 원의 비용을 절감한 경험을 공유합니다. 서비스 아키텍처는 App Server(FastAPI)와 Model Server(TorchServe)로 구성되며, CPU 집약적인 전처리 및 후처리는 App Server에서, 순수 추론은 Model Server에서 담당합니다.
GPU 자원의 한계를 극복하고 대규모 모델 학습 및 다양한 모델 활용 목표 달성을 위해 기존 모델들을 CPU 서빙으로 전환하는 과정에서 성능 저하 없이 서비스 품질을 유지하는 것이 핵심 과제였습니다. 이 글은 이러한 전환 과정에서의 문제 정의와 처리량 및 지연 시간 측정 등 기술적인 내용을 다룹니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기