Language-Image Multi-modal AI 기술 연구 - 중간과정
Language-Image Multi-modal AIText-to-ImagekoDALL:EAI Fellowship일러스트 생성동화책 생성
AI 요약
BetaSKT AI Fellowship 4기에서 "Language-Image Multi-modal AI" 연구 과제를 수행 중인 Team KEANU의 중간 연구 결과 공유 글입니다. 초기 계획과 달리 Hugging face의 'DALLE: mini' 대신 자체적으로 코드를 재구성하고 모델을 새롭게 구축했습니다.
한국어 Text-to-Image 모델의 부족함과 정보 부재로 어려움이 있었지만, 최종 목표인 '한국어 동화책 내부 일러스트 생성'을 위해 과감한 변경을 시도했습니다. 현재는 koDALL:E 모델을 기반으로 두 가지 데이터셋(실사, 일러스트)을 동시에 학습시키고 있으며, 데이터 전처리는 90% 완료되었습니다.
향후 에이닷 GLM과 연동하여 사용자가 텍스트로 동화를 요청하면 해당 내용에 맞는 일러스트를 생성하는 것을 목표로 하고 있습니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기


