카카오의 경량 멀티모달 언어모델 ‘Kanana-1.5-v-3b’ 개발부터 공개까지

카카오·2025년 7월 24일·00

멀티모달 언어모델Kanana-1.5-v-3bLLM오픈소스허깅페이스ViT한국어

AI 요약

Beta

5-v-3b-instruct(Kanana-v-3b)'를 개발하고 허깅페이스를 통해 오픈소스로 공개했습니다. 5-3b-instruct'를 기반으로 이미지와 텍스트를 함께 입력받아 자연어로 응답을 생성할 수 있도록 확장되었습니다.

ViT 기반의 Vision Encoder와 자체 개발한 C-Abstractor 구조를 사용하여 이미지 정보를 LLM이 이해할 수 있는 형태로 변환하며, 약 36억 개의 파라미터를 가집니다. 비슷한 규모의 글로벌 모델과 비교했을 때 다양한 한국어 벤치마크에서 뛰어난 성능을 보였으며, 상업적으로 활용 가능한 라이선스로 공개되어 누구나 사용할 수 있습니다.

벤치마크에서 뛰어난 성능을 보였으며, 상업적으로 활용 가능한 라이선스로 공개되어 누구나 사용할 수 있습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

카카오의 경량 멀티모달 언어모델 ‘Kanana-1.5-v-3b’ 개발부터 공개까지

AI 요약

AI 추천 연관 게시글

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기

더 똑똑해진 카카오의 언어모델 Kanana 1.5, 상업 활용 가능한 오픈소스 공개

더 똑똑하고 효율적인 Kanana-2 오픈소스 공개

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기