레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

네이버·2025년 7월 17일·00

SPLADEBERTFlashTokenizer모델 최적화실시간 서빙추론 최적화

AI 요약

Beta

NAVER ENGINEERING DAY 2025에서 발표된 세션 내용을 다루는 글입니다. BERT 기반 모델인 SPLADE 모델을 대규모 실시간 서비스에 적용하기 위한 최적화 방법에 대해 설명합니다.

특히, 세상에서 가장 빠른 BERTTokenizer 구현체인 FlashTokenizer의 개발 배경과 성능을 소개하며, 모델 단순화, 추론/전처리/후처리 최적화 등 실시간 서빙을 위한 모델 추론 최적화 방안을 상세히 다룹니다. 실시간 서빙을 위한 모델 추론 최적화에 관심 있는 개발자에게 유용한 정보를 제공합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기