멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?

스캐터랩_핑퐁·2023년 9월 13일·00

멀티모달이미지 대화생성 모델리트리벌 모델VLM데이터셋

AI 요약

Beta

이 글은 기존 포토챗 베타의 한계를 분석하고 이를 개선하여 텍스트 문맥과 사진을 함께 이해하는 생성 기반의 멀티모달 대화 모델을 개발하는 과정을 다룹니다. 기존 리트리벌 모델은 표현력의 한계와 이미지-텍스트 연관성 이해 부족, 학습 데이터셋의 양적 한계 등의 문제점을 가지고 있었습니다.

특히, 단일 이미지와 단일 발화 형태의 학습 방식은 실제 대화에서 발생하는 텍스트 문맥과의 부조화를 야기했습니다. 이를 해결하기 위해 연구진은 대화 문맥 내에서 텍스트와 이미지가 결합된 멀티턴 이미지 대화 데이터셋을 기획하고, 더 자연스러운 답변 생성을 목표로 하는 생성 기반 멀티모달 대화 모델 개발에 착수했습니다.

이를 통해 사용자에게 향상된 이미지 대화 경험을 제공하고자 합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?

AI 요약

AI 추천 연관 게시글

멀티턴 이미지 대화: 조규성 vs 안정환, 루다야 누가 더 잘생겼어?

Luda Gen 1, 더 재미있고 자연스러운 대화로 돌아온 루다 1편 - 생성 기반 챗봇

메신저용 온디바이스 이미지 모델 학습기 2편: 초저지연 비자기회귀(non-autoregressive) 캡션 생성 전략

메신저용 온디바이스 이미지 모델 학습기 1편: 지식 증류로 확장한 다국어 이미지 검색

Language-Image Multi-modal AI 기술 연구 - 중간과정