보이저엑스의 ComfyUI 워크플로우 기반 AI 비디오 생성 파이프라인 구축 여정

AWS·2025년 11월 11일·00

AI 비디오 생성ComfyUIWan2.1Diffusion TransformerLLMVrew

AI 요약

Beta

보이저엑스(VoyagerX)의 Vrew 서비스는 AI 기술을 활용하여 사용자에게 편리한 영상 편집 경험을 제공합니다. 최근 오픈소스 비디오 생성 모델의 발전과 함께, Vrew 팀은 AI 비디오 생성 기능 도입을 위해 다양한 실험을 진행했습니다.

3B 모델을 선택했으며, 이는 Diffusion Transformer 아키텍처를 기반으로 Stable Diffusion과 Transformer를 결합한 형태입니다. Wan-VAE는 고해상도 비디오를 저차원 잠재 공간으로 압축/복원하고, Diffusion Transformer(DiT)는 이 잠재 벡터 시퀀스를 기반으로 확산 생성 과정을 수행합니다.

특히, Wan-VAE는 Causal 3-D Convolution을 사용하여 시간 축 정보 누설을 방지하며, Diffusion Transformer는 U-Net 대신 Transformer 블록을 사용하여 비디오 생성을 진행합니다. 본문에서는 이러한 모델 구조와 AWS 인스턴스에서의 추론 최적화 과정을 다룹니다.

추론 최적화 과정을 다룹니다.

이 글이 궁금하신가요?

원문 블로그에서 전체 내용을 확인해 보세요

원문 읽으러 가기

보이저엑스의 ComfyUI 워크플로우 기반 AI 비디오 생성 파이프라인 구축 여정

AI 요약

AI 추천 연관 게시글

클라우드 환경에서의 비디오 인텔리전스 구현: TwelveLabs로 시작하는 AI 영상 분석 3부 – Strands Agent를 활용한 Agentic video engine구현

인공지능(AI) 아나운서 개발기

인공지능(AI) 아나운서 개발기

클라우드 환경에서의 비디오 인텔리전스 구현: TwelveLabs로 시작하는 AI 영상 분석 1부 – VoD환경에서의 비디오 분석 파이프라인 구축하기

클라우드 환경에서의 비디오 인텔리전스 구현: TwelveLabs로 시작하는 AI 영상 분석 4부 – TwelveLabs Marengo 3.0 임베딩 및 검색 전략과 구현 가이드