월 150만 유저가 사용하는 LLM Inference 인프라 안정적으로 운영하기
본 글은 월 150만 사용자를 보유한 AI 엔터테인먼트 서비스 '제타'의 LLM Inference 인프라 운영 경험을 공유합니다. Scatter Lab은 자체 LLM 'Spotwrite'를 활용하여 학습부터 서빙까지 전 과정을 직접 수행하며, 매주 수십 개의 LLM 실험과 수백 개의 모델 동시 서빙 환경을 안정적으로 운영하고 있습니다. 글에서는 클라우드 기반의 컨테이너화된 인프라 환경에서 겪었던 문제점과 이를 해결하기 위한 개선 과정을 상세히 다룹니다. 특히, vLLM과 같은 고성능 서빙 엔진을 활용하고 Kubernetes를 통해 인프라를 관리하며, ML Engineering 관점에서 안정적인 LLM 서빙을 위한 노하우를 공유하는 데 중점을 둡니다.
