VDOT 최적 수송 기반 효율적인 통합 비디오 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VDOT는 영상 생성·편집을 하나의 통합 모델로 구현하면서, 기존 확산 기반 모델의 고비용 추론을 4단계의 소수 스텝으로 대폭 줄인다. 핵심은 역 KL 손실에 최적 수송(OT) 거리 제약을 추가해 점수 분포를 기하학적으로 정렬하고, 실제 비디오를 활용한 판별기를 결합해 품질을 향상시킨다. 또한 다중 작업을 위한 자동 데이터 라벨링·필터링 파이프라인과 18가지 태스크를 포함한 UVCBench 벤치마크를 제공한다. 실험 결과 4‑step VDOT이 100‑step 디노이징 기반 베이스라인과 동등하거나 우수한 성능을 보이며, 추론 속도·안정성에서 큰 이점을 입증한다.

상세 분석

VDOT는 ‘Distribution‑Matching Distillation(DMD)’ 프레임워크를 기반으로, 사전 학습된 대규모 비디오 생성 모델(VACE‑W)에서 소수 스텝의 경량 학생 모델을 추출한다. 기존 DMD는 역 KL(Kullback‑Leibler) 발산을 최소화해 교사와 학생의 점수(score) 분포를 맞추지만, few‑step 상황에서는 ‘zero‑forcing’과 ‘gradient collapse’라는 모드‑시킹 문제가 빈번히 발생한다. VDOT는 이를 해결하기 위해 엔트로피 정규화된 최적 수송(Entropic OT, EOT) 거리를 추가 손실로 도입한다.

EOT는 두 점수 집합 사이의 최소 운송 비용을 계산하고, 최적 운송 행렬 T를 통해 각 점수 벡터 a_i와 b_j 사이의 기하학적 대응을 명시한다. 손실 L_OTD는 ∇_a_i W_ε² = Σ_j T_{ij}(a_i−b_j) 형태의 명확한 그래디언트를 제공해, 역 KL이 강조하는 고확률 영역에만 집중되는 현상을 완화한다. 즉, 학생 모델이 교사의 전체 분포를 골고루 탐색하도록 유도한다.

또한 VDOT는 판별기(D)와의 적대적 학습을 병행한다. D는 실제 비디오와 학생이 생성한 비디오를 구분하도록 학습되며, 생성자는 GAN 손실을 통해 시각적 디테일과 텍스처 일관성을 보강한다. 이때 교사는 ‘Self‑Forcing’ 방식을 차용해, 이전 스텝에서 디노이징된 프레임을 현재 스텝의 조건으로 사용함으로써 학습‑테스트 간 분포 차이를 최소화한다.

입력 조건은 텍스트, 이미지, 비디오 프레임, 마스크 등 네 가지 모달리티를 ‘Video Condition Unit(VCU)’으로 통합한다. VCU는 T;F;M 형태의 토큰으로 변환돼, VACE의 WAN‑DiT 블록과 VACE‑DiT 블록에 각각 전달된다. 이렇게 하면 텍스트‑투‑비디오(T2V), 레퍼런스‑투‑비디오(R2V), 비디오‑투‑비디오(V2V), 마스크드‑비디오(MV2V) 등 5가지 기본 작업을 하나의 파이프라인에서 처리할 수 있다.

데이터 측면에서 저자들은 4K 해상도 비디오를 자동 수집하고, 대규모 비전‑언어 모델을 이용해 dense captioning을 수행한다. 이후 작업‑특화 필터링과 후보 순위 매김을 거쳐 고품질·다양한 멀티태스크 학습 데이터를 구축한다. 평가용 벤치마크 UVCBench은 18개의 생성·편집 태스크를 각각 20개의 대표 테스트 케이스로 구성해, 객관적 지표와 인간 평가를 동시에 제공한다.

실험 결과, 4‑step VDOT은 동일한 하드웨어 환경에서 100‑step 디노이징 기반 모델 대비 4~5배 빠른 추론 속도를 보이며, FVD, IS, CLIP‑Score 등 주요 메트릭에서 동등하거나 더 높은 점수를 기록한다. 특히 복합 태스크(예: 텍스트와 마스크를 동시에 활용한 편집)에서 기존 통합 모델보다 눈에 띄게 개선된 품질을 보여, OT 기반 정규화가 few‑step 디스토일링에 실질적인 효과가 있음을 입증한다.

요약하면, VDOT는 최적 수송을 통한 기하학적 분포 정렬, 적대적 판별기 결합, 그리고 자동화된 멀티모달 데이터 파이프라인을 통해, 고품질·고효율의 통합 비디오 생성 모델을 구현한 최초의 시도라 할 수 있다.

VDOT 최적 수송 기반 효율적인 통합 비디오 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기