Language-Image Multi-modal AI 기술 연구 - 연구계획(2)
Language-Image Multi-modal AIVQGANDALL:EdVAEDiffusion 모델AI 연구
AI 요약
Beta본 글은 SKT AI Fellowship 4기 연구과제 "Language-Image Multi-modal AI"를 수행하는 Team KEANU의 연구 계획 두 번째 이야기입니다. 이전 포스트에서 언급되었던 VQGAN과 DALL:E 모델의 베이스 라인을 소개하며, 특히 기존 DALL:E 모델이 dVAE를 사용하여 이미지 생성 시 발생하는 정보 손실 문제점을 지적합니다.
고해상도 이미지 생성에 필요한 디테일이 dVAE 압축 과정에서 사라지는 현상을 설명하고, 이를 해결하기 위해 제시된 VQGAN과 Diffusion 모델을 소개합니다. Diffusion 모델은 열역학에서 아이디어를 얻은 모델로, Forward Diffusion Process(데이터에 노이즈 점진적 추가)와 Reverse Diffusion Process(노이즈에서 원본 데이터 복원)의 두 단계로 구성됨을 설명합니다.
이 글이 궁금하신가요?
원문 블로그에서 전체 내용을 확인해 보세요
원문 읽으러 가기



