devmoa

보이저엑스의 ComfyUI 워크플로우 기반 AI 비디오 생성 파이프라인 구축 여정

AWS·2025년 11월 11일·00
AI 비디오 생성ComfyUIWan2.1Diffusion TransformerLLMVrew

AI 요약

Beta

보이저엑스(VoyagerX)의 Vrew 서비스는 AI 기술을 활용하여 사용자에게 편리한 영상 편집 경험을 제공합니다. 최근 오픈소스 비디오 생성 모델의 발전과 함께, Vrew 팀은 AI 비디오 생성 기능 도입을 위해 다양한 실험을 진행했습니다.

3B 모델을 선택했으며, 이는 Diffusion Transformer 아키텍처를 기반으로 Stable Diffusion과 Transformer를 결합한 형태입니다. Wan-VAE는 고해상도 비디오를 저차원 잠재 공간으로 압축/복원하고, Diffusion Transformer(DiT)는 이 잠재 벡터 시퀀스를 기반으로 확산 생성 과정을 수행합니다.

특히, Wan-VAE는 Causal 3-D Convolution을 사용하여 시간 축 정보 누설을 방지하며, Diffusion Transformer는 U-Net 대신 Transformer 블록을 사용하여 비디오 생성을 진행합니다. 본문에서는 이러한 모델 구조와 AWS 인스턴스에서의 추론 최적화 과정을 다룹니다.

추론 최적화 과정을 다룹니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

AI 추천 연관 게시글

이 글과 관련된 다른 기술 블로그 글을 AI가 추천합니다