갤럭시디트: 가이드 정렬과 적응형 프록시로 가속하는 비디오 디퓨전 트랜스포머

초록

갤럭시디트는 훈련 없이 비디오 디퓨전 트랜스포머의 생성 속도를 1.82.4배 높이고, CFG에 따른 연산 부담을 최소화한다. 랭크‑오더 상관관계 분석을 통해 모델 규모와 종류에 최적화된 프록시를 자동 선택해 재사용 효율을 극대화한다. 실험 결과 VBench‑2.0에서 품질 저하가 1% 이하이며, 고속도모드에서도 기존 최첨단 대비 PSNR이 510 dB 향상된다.

상세 분석

본 논문은 비디오 생성 분야에서 확산 모델(Diffusion Model)과 트랜스포머 기반 디퓨전 이미지 트랜스포머(DiT)의 결합이 가져온 성능 향상에도 불구하고, 연산 비용이 급격히 증가한다는 문제점을 지적한다. 특히, 클래스‑프리 가이드(Classifier‑Free Guidance, CFG)를 적용하면 샘플링 단계가 두 배가 되면서 실시간 혹은 저지연 응용에 제약이 생긴다. 이러한 배경에서 제안된 GalaxyDiT는 “훈련‑프리(training‑free)” 접근법으로, 기존 모델 파라미터를 그대로 유지하면서도 샘플링 효율을 크게 개선한다는 점에서 혁신적이다.

핵심 아이디어는 두 가지 축으로 구성된다. 첫째, 가이드 정렬(Guidance Alignment) 은 CFG가 적용된 고품질 샘플과 비가이드 샘플 사이의 시멘틱 일관성을 정량화하고, 이를 기반으로 가이드 강도를 동적으로 조정한다. 기존에는 고정된 CFG 스케일(예: 7.5)을 사용했지만, GalaxyDiT는 각 타임스텝마다 최적의 가이드 비율을 추정해 불필요한 연산을 줄인다. 둘째, 적응형 프록시 선택(Adaptive Proxy Selection) 은 “프록시 모델”을 정의하고, 이 프록시가 원본 모델의 출력과 얼마나 높은 순위 상관관계(rank‑order correlation)를 유지하는지를 사전 분석한다. 논문에서는 다양한 규모의 Wan2.1‑1.3B와 Wan2.1‑14B 모델을 대상으로 10,000개 이상의 비디오 프롬프트에 대해 랭크‑오더 상관관계를 측정했으며, 상관계수가 0.92 이상인 프록시를 선택해 재사용한다. 이렇게 하면 고해상도 비디오를 생성할 때도 저해상도 프록시를 먼저 실행하고, 이후 고해상도 단계에서 보정만 수행함으로써 전체 연산량을 크게 감소시킨다.

또한, 재사용 메트릭스(Reuse Metrics) 로서 단순 MSE 대신 PSNR, SSIM, 그리고 VBench‑2.0의 인간 평가 점수를 결합해 프록시 선택의 다목적 최적화를 수행한다. 실험 결과, 프록시를 사용한 경우에도 원본 모델 대비 PSNR 차이가 평균 0.3 dB 이하로 미미했으며, VBench‑2.0에서의 품질 저하율은 0.97%와 0.72%에 불과했다. 이는 기존 가속 기법(예: DDIM, DPM‑Solver) 대비 2배 이상의 속도 향상과 동시에 품질 손실을 최소화한 결과이다.

한계점으로는 프록시 선택 과정이 사전 대규모 통계 분석을 필요로 하며, 새로운 도메인(예: 의료 영상)이나 프롬프트 유형이 크게 변할 경우 재학습이 필요할 수 있다. 또한, 가이드 정렬이 지나치게 강한 경우 프롬프트와 무관한 시각적 노이즈가 증폭될 위험이 존재한다. 향후 연구에서는 온라인 적응형 프록시 업데이트와 메타‑러닝 기반 가이드 스케일 예측을 통해 이러한 제약을 완화할 방안을 모색할 수 있다.

요약하면, GalaxyDiT는 가이드 정렬과 적응형 프록시라는 두 축을 통해 비디오 디퓨전 트랜스포머의 샘플링 효율을 근본적으로 재구성한다. 훈련 없이도 모델 규모와 프롬프트 다양성에 강인한 성능을 보이며, 실시간 비디오 생성, 인터랙티브 콘텐츠 제작, 물리 시뮬레이션 등 고연산 요구 분야에 즉각적인 파급 효과를 기대할 수 있다.