더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정

카카오·2025년 12월 11일·00

멀티모달 언어모델Kanana-oLLM음성 인식감정 인식지시 이행

AI 요약

Beta

카카오의 AI 모델 개발팀인 카나나(Kanana) 조직에서 개발한 멀티모달 언어모델 Kanana-o의 진화 과정을 소개하는 글입니다. Kanana-o는 텍스트, 이미지, 음성 등 여러 정보를 동시에 이해하고 처리하는 모델로, 기존의 음성 인식, 합성, 감정 인식 성능을 유지하면서 멀티모달 지시 이행 능력과 발화 표현력을 개선했습니다.

이를 통해 사용자의 의도를 더 정확하게 파악하고, 사람처럼 풍부한 감정선을 담아 자연스럽게 상호작용하는 AI 구현을 목표로 합니다. 본문에서는 사용자의 지시를 더 잘 이해하고 똑똑하게 답변하기 위한 멀티모달 지시 이행 능력의 중요성과 개선 과정에 대해 상세히 다룹니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

더욱 똑똑하게 답하며, 더욱 풍부한 감정표현을 향한 Kanana-o의 진화 과정

AI 요약

AI 추천 연관 게시글

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

“생각하고 답변하는” 카카오의 하이브리드 멀티모달 언어모델, Kanana-v-4b-hybrid 개발기

Agentic AI를 향한 카나나 모델의 진화

더 똑똑해진 카카오의 언어모델 Kanana 1.5, 상업 활용 가능한 오픈소스 공개

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기