Language-Image Multi-modal AI 기술 연구 - 중간과정

데보션·2022년 9월 16일·00

Language-Image Multi-modal AIText-to-ImagekoDALL:EAI Fellowship일러스트 생성동화책 생성

AI 요약

Beta

SKT AI Fellowship 4기에서 "Language-Image Multi-modal AI" 연구 과제를 수행 중인 Team KEANU의 중간 연구 결과 공유 글입니다. 초기 계획과 달리 Hugging face의 'DALLE: mini' 대신 자체적으로 코드를 재구성하고 모델을 새롭게 구축했습니다.

한국어 Text-to-Image 모델의 부족함과 정보 부재로 어려움이 있었지만, 최종 목표인 '한국어 동화책 내부 일러스트 생성'을 위해 과감한 변경을 시도했습니다. 현재는 koDALL:E 모델을 기반으로 두 가지 데이터셋(실사, 일러스트)을 동시에 학습시키고 있으며, 데이터 전처리는 90% 완료되었습니다.

향후 에이닷 GLM과 연동하여 사용자가 텍스트로 동화를 요청하면 해당 내용에 맞는 일러스트를 생성하는 것을 목표로 하고 있습니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

Language-Image Multi-modal AI 기술 연구 - 중간과정

AI 요약

AI 추천 연관 게시글

Language-Image Multi-modal AI 기술 연구 - 연구계획(1)

Language-Image Multi-modal AI 기술 연구 - DALL:E 그림 그려줘!

Language-Image Multi-modal AI 기술 연구 - 연구계획(2)

Multi-modal 감정 인식 AI 모델 개발 - 연구과정(2)

한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것