LLM 쉽고 빠르게 서빙하기

토스·2024년 11월 26일·00

LLM서빙추론 속도모델 서빙토스증권Llama3

AI 요약

Beta

본 글은 LLM을 서비스에 적용할 때 발생하는 속도 및 사용성 문제를 해결하기 위한 토스증권의 경험을 공유합니다. LLM 시대에 발맞춰 토스증권은 자체 LLM 학습 및 서비스 적용에 힘쓰고 있으나, Llama3와 같은 모델을 일반적인 방식으로 추론하면 수십 초 이상 소요되어 서비스 적용에 어려움이 있습니다.

또한, 모델 코드를 컨테이너화하고 Kubernetes에 배포하는 등 서빙 과정에 필요한 복잡한 기술적 지식은 다양한 모델을 테스트하고 비교하는 데 큰 허들이 됩니다. 이에 글에서는 LLM의 추론 속도를 개선하고 모델 서빙 방법을 효율화하여 이러한 문제들을 어떻게 해결했는지 구체적인 방법을 제시합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기