가이드형 점진적 증류로 빠르고 고품질 비디오 생성
초록
본 논문은 비디오 확산 모델의 고비용 디노이징 과정을 가이드형 점진적 증류(GPD) 프레임워크로 가속화한다. 교사 모델이 학생 모델의 중간 예측을 실시간으로 정제해 고품질·학습이 쉬운 목표를 제공하고, 라티스 공간의 고주파 손실을 도입해 세밀한 디테일과 시간적 일관성을 유지한다. Wan2.1에 적용해 48→6 스텝으로 샘플링 속도를 8배 높이면서 VBench에서 경쟁력 있는 시각 품질을 달성한다.
상세 분석
GPD는 기존 “trajectory straightening” 방식이 갖는 두 가지 근본적 한계를 극복한다. 첫째, 교사가 사전에 계산한 다단계 경로를 그대로 학생에게 강제하면, 큰 스텝(k≫1)일수록 경로 곡률이 급격히 증가해 학생이 한 번에 학습하기 어려운 ‘target mismatch’가 발생한다. 둘째, 훈련 시 입력이 전적으로 교사에 의해 생성되므로, 추론 단계에서 학생이 만든 중간 라티스가 교사와 차이가 나면 분포 이동(distribution shift)이 누적돼 품질 저하가 일어난다.
GPD는 “online‑generated target”이라는 동적 목표 생성 메커니즘을 도입한다. 구체적으로, 현재 단계(k)의 학생(vθk‑1)은 k‑1 스텝을 수행해 중간 라티스 z_{t_i‑k+1}를 만든다. 이 라티스는 교사(vϕ)에 전달돼 한 스텝을 더 정제하여 z*{t_i‑k}를 만든다. 최종 목표는 전체 k 스텝 구간에 대한 평균 속도 v_target = (z*{t_i‑k} – z_{t_i})/(t_i‑k – t_i) 로 정의된다. 이렇게 하면 교사는 학생이 만든 실제 경로를 바로 보정해 주므로, 목표가 고품질이면서 현재 학생의 추론 흐름과 방향이 일치한다(코사인 유사도 실험에서 확인).
두 번째 핵심은 “frequency‑domain constraint”이다. 비디오 라티스는 3‑D FFT를 통해 주파수 영역으로 변환되고, 시간·공간 차원별 가우시안 고역 필터 H(f_t,f_h,f_w) = 1 – exp(–α·(f_t²/σ_t² + f_h²/σ_s² + f_w²/σ_s²)) 로 고주파 성분을 추출한다. 고주파 손실 L_hf = ||F_high(z_θ) – F_high(z*)||²는 학생 출력이 교사 정제 목표와 고주파 디테일에서 일치하도록 강제한다. 특히, diffusion timestep이 감소함에 따라 고주파가 점진적으로 의미 있는 구조(에지, 움직임)로 변하는 현상을 관찰하고, t ≤ 0.5T 구간에서만 λ(t)·L_hf를 가중치로 적용해 시간‑의존적 보존을 구현한다.
학습은 K 단계의 점진적 증류로 진행된다. 초기 단계에서는 학생이 1‑step을 학습하고, 이후 단계마다 스텝 크기를 선형적으로 늘려(k=2…K) 교사의 정제 목표에 맞추도록 한다. 각 단계는 이전 단계에서 학습된 파라미터를 초기값으로 사용해 안정적인 수렴을 보장한다. 전체 손실은 L_total = L_v + λ(t)·L_hf 로 구성되며, L_v는 속도(velocity) 차이 L2 손실이다.
실험 결과는 두드러진데, Wan2.1‑1.3B 모델을 기반으로 48→6 스텝으로 축소했음에도 VBench 전체 점수 84.04%를 달성했다. 이는 기존 가속 파이프라인인 AccVideo(5스텝, 83.28%)와 CausVid(3스텝, 83.65%)를 능가한다. 특히 텍스트 정합성, 배경 일관성, 다중 객체 관계 등 세부 지표에서도 1~3%p 상승을 보였다. 고주파 손실을 적용하지 않은 변형 실험에서는 세부 디테일이 흐려지고 움직임이 부자연스러워지는 현상이 확인돼, 제안된 주파수 제약의 효과가 입증된다.
계산 효율성 측면에서도, 온라인 목표 생성은 사전 교사 trajectory를 저장·로드할 필요가 없어 메모리 사용량을 크게 줄이고, 단계별 학습이 점진적으로 진행돼 전체 학습 비용이 기존 오프라인 증류 대비 약 30% 감소한다.
요약하면, GPD는 (1) 교사의 실시간 정제로 고품질·학습 친화적 목표 제공, (2) 라티스 고주파 보존으로 시각·시간 디테일 유지, (3) 점진적 스텝 확대 전략으로 안정적 수렴을 동시에 달성한다. 이는 비디오 확산 모델을 실시간·고해상도 응용에 한 걸음 더 다가가게 하는 중요한 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기