멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?
멀티모달이미지 대화생성 모델리트리벌 모델VLM데이터셋
AI 요약
Beta이 글은 기존 포토챗 베타의 한계를 분석하고 이를 개선하여 텍스트 문맥과 사진을 함께 이해하는 생성 기반의 멀티모달 대화 모델을 개발하는 과정을 다룹니다. 기존 리트리벌 모델은 표현력의 한계와 이미지-텍스트 연관성 이해 부족, 학습 데이터셋의 양적 한계 등의 문제점을 가지고 있었습니다.
특히, 단일 이미지와 단일 발화 형태의 학습 방식은 실제 대화에서 발생하는 텍스트 문맥과의 부조화를 야기했습니다. 이를 해결하기 위해 연구진은 대화 문맥 내에서 텍스트와 이미지가 결합된 멀티턴 이미지 대화 데이터셋을 기획하고, 더 자연스러운 답변 생성을 목표로 하는 생성 기반 멀티모달 대화 모델 개발에 착수했습니다.
이를 통해 사용자에게 향상된 이미지 대화 경험을 제공하고자 합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기

