devmoa

Language-Image Multi-modal AI 기술 연구 - 연구계획(1)

데보션·2022년 6월 24일·00
Text-to-Image GenerationMulti-modal AIDiffusion modelVQGAN한국어SKT 에이닷

AI 요약

Beta

SKT AI Fellowship 4기에서 "Language-Image Multi-modal AI" 연구 과제를 수행하는 Team KEANU의 연구 계획 발표입니다. 본 연구는 한국어 기반의 Text-to-Image Generation 모델 제작을 목표로 합니다.

최근 주목받는 Text-to-Image 모델인 DALL:E2, Imagen 등을 소개하며, SKT 에이닷 서비스에 적용 가능한 기술임을 언급합니다. 기존 Diffusion 모델의 속도 문제를 해결하기 위해 VQGAN을 Decoder로 활용할 계획이며, 한국적인 문화와 정서를 반영한 이미지를 생성하는 것을 최종 목표로 합니다.

한국어 기반의 모델이 부족한 현 상황에서 "한국스러운" 결과물을 생성하는 모델 개발의 중요성을 강조합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다