디퓨전 기반 비디오 복원을 위한 고속·내열 흐름 정렬 및 적대적 증류 프레임워크
초록
본 논문은 단일 이미지 디퓨전 모델을 비디오 복원에 적용하면서, 심각한 손상 환경에서도 강인한 흐름 정렬을 제공하는 Degradation‑Robust Flow Alignment(DRFA) 모듈과, 4단계만의 저지연 샘플링을 가능하게 하는 Adversarial Distillation 기법을 결합한다. 또한, 텍스처 품질을 유지하면서 시간적 일관성을 보장하기 위해 공간‑대립 손실과 Temporal‑LPIPS 손실을 동시에 최적화하는 Synergistic Optimization Strategy를 제안한다. 실험 결과, 기존 최첨단 방법 대비 PSNR·SSIM·LPIPS·tOF 등 모든 평가 지표에서 우수하며, 추론 속도는 12배 가속한다.
상세 분석
D$^2$‑VR은 기존 디퓨전 기반 비디오 복원 모델이 안고 있던 두 가지 핵심 문제, 즉 고비용의 다단계 샘플링과 손상된 입력에서 발생하는 광류 추정 불안정을 동시에 해결한다. 첫 번째 핵심은 Degradation‑Robust Flow Alignment(DRFA) 모듈이다. 기존 GMA나 RAFT과 달리 DRFA는 입력 특징을 기반으로 신뢰도 맵 C를 추정하고, 이를 로그 변환한 M을 어텐션 스코어에 편향(bias)으로 추가한다. 이 과정은 저신뢰 영역의 정보를 억제하고, 고신뢰 영역만을 전역 어텐션에 활용함으로써 잡음에 취약한 흐름을 정제한다. 두 번째 핵심은 Adversarial Distillation이다. 교사(diffusion) 모델의 확률 분포를 Score Distillation Sampling(SDS)으로 학생 모델에 전달하면서, 동시에 사전 학습된 UNet 인코더를 판별기로 활용해 Feature‑Based Spatial Adversarial Loss(L_G^adv)와 L_D^adv를 도입한다. 이는 4개의 타임스텝(750, 500, 250, 0)만으로도 고주파 텍스처를 복원하도록 유도한다. 그러나 적대적 학습만으로는 시간적 일관성이 손상될 위험이 있다. 이를 보완하기 위해 Temporal‑LPIPS(L_T‑LPIPS)를 도입, 생성된 프레임 쌍과 GT 프레임 쌍 사이의 퍼셉추얼 변화 차이를 최소화한다. 최종 손실은 L_distill + λ1·L_G^adv + λ2·L_T‑LPIPS 로 구성되어, 텍스처 디테일과 시간적 안정성을 동시에 최적화한다. 실험에서는 REDS30과 VideoLQ 두 데이터셋에서 PSNR 24.31·SSIM 0.621·LPIPS 0.242·tOF 4.715 등 전반적인 성능이 기존 StableVSR·DO‑VE·Real‑ESRGAN 등을 크게 앞선다. 특히 4스텝 추론으로 12배 가속을 달성했으며, 모델 파라미터도 경량화돼 소비자 GPU에서도 실시간에 근접한 처리 속도를 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기