Language-Image Multi-modal AI 기술 연구 - 연구계획(1)

데보션·2022년 6월 24일·00

Text-to-Image GenerationMulti-modal AIDiffusion modelVQGAN한국어SKT 에이닷

AI 요약

Beta

SKT AI Fellowship 4기에서 "Language-Image Multi-modal AI" 연구 과제를 수행하는 Team KEANU의 연구 계획 발표입니다. 본 연구는 한국어 기반의 Text-to-Image Generation 모델 제작을 목표로 합니다.

최근 주목받는 Text-to-Image 모델인 DALL:E2, Imagen 등을 소개하며, SKT 에이닷 서비스에 적용 가능한 기술임을 언급합니다. 기존 Diffusion 모델의 속도 문제를 해결하기 위해 VQGAN을 Decoder로 활용할 계획이며, 한국적인 문화와 정서를 반영한 이미지를 생성하는 것을 최종 목표로 합니다.

한국어 기반의 모델이 부족한 현 상황에서 "한국스러운" 결과물을 생성하는 모델 개발의 중요성을 강조합니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

Language-Image Multi-modal AI 기술 연구 - 연구계획(1)

AI 요약

AI 추천 연관 게시글

Language-Image Multi-modal AI 기술 연구 - 중간과정

Language-Image Multi-modal AI 기술 연구 - 연구계획(2)

Language-Image Multi-modal AI 기술 연구 - DALL:E 그림 그려줘!

한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기

한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것

Language-Image Multi-modal AI 기술 연구 - 중간과정

Language-Image Multi-modal AI 기술 연구 - 연구계획(2)

Language-Image Multi-modal AI 기술 연구 - DALL:E 그림 그려줘!

​한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기

한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것

한국어와 이미지를 한 번에, 카카오의 멀티모달 임베딩 모델 개발기