메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략
온디바이스이미지 캡션 생성지식 증류비자기회귀LLM모바일
AI 요약
Beta본 글은 메신저 환경에서 네트워크 호출 없이 모바일 기기 내부에서 작동하는 이미지 이해 기능, 특히 이미지 캡션 생성의 초저지연 구현 전략을 다룹니다. 기존의 자기회귀 방식은 모바일 환경에서 수초의 지연 시간을 발생시켜 메신저 UX에 부적합했습니다.
이를 해결하기 위해 비자기회귀 디코더를 도입하여 응답 시간을 200~400ms로 획기적으로 단축했습니다. 또한, 거대 모델의 성능을 작은 모델로 이전하는 지식 증류 기법을 활용하고, LLM 기반 수락 비율 지표를 통해 서비스 가능한 수준의 품질을 확보했습니다.
최종적으로 172MB의 모델 크기로 실제 서비스 수준의 온디바이스 이미지 캡션 생성 기능을 구현하는 과정을 설명합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

