한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기

카카오·2025년 12월 11일·00

멀티모달 임베딩LLM임베딩 모델RAG텍스트-이미지 검색카카오

AI 요약

Beta

카카오의 Kanana 조직에서 개발한 멀티모달 임베딩 모델 'Kanana-v-embedding'을 소개하는 글입니다. 이 모델은 한국어 환경과 카카오 서비스 시나리오에 최적화되어 텍스트-텍스트, 텍스트-이미지, 이미지-이미지 등 다양한 조합의 검색을 지원합니다.

LLM 기반 서비스가 늘어나면서 외부 정보를 빠르고 정확하게 찾아주는 임베딩 모델의 중요성이 커지고 있으며, 특히 텍스트와 이미지를 함께 다루는 멀티모달 임베딩은 사용자 질문에 대한 풍부하고 정확한 답변 제공의 핵심 기술입니다. 임베딩은 텍스트나 이미지를 고정 길이 벡터로 변환하여 서로 다른 형태의 데이터를 '거리'나 '유사도'로 비교할 수 있게 하며, 이를 통해 "해변에서 노는 강아지"와 같은 텍스트 검색이나 유사 이미지 검색 기능을 구현할 수 있습니다.

이 모델은 검색, 추천, RAG 등 다양한 서비스에 활용될 수 있습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기

AI 요약

AI 추천 연관 게시글

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

Amazon Bedrock과 OpenSearch를 활용한 Multimodal RAG 기반 상품 검색 챗봇

Language-Image Multi-modal AI 기술 연구 - 연구계획(1)

카카오 AI추천 : 카카오의 콘텐츠 기반 필터링 (Content-based Filtering in Kakao)