제로샷 비디오 빗물 제거: 사전학습 비디오 디퓨전 모델 활용
초록
본 논문은 합성 데이터나 모델 파인튜닝 없이, 사전학습된 텍스트‑투‑비디오 디퓨전 모델을 이용해 복잡한 동적 장면의 빗물(비) 영상을 제로샷으로 제거하는 방법을 제안한다. 입력 영상을 디퓨전 잠재공간으로 역변환한 뒤, 부정 프롬프트와 새로운 어텐션 스위칭 메커니즘을 적용해 빗물 개념을 억제하고 배경 구조와 시간 일관성을 유지한다. 실험 결과, 기존 지도학습·반지도학습 기반 방법들을 크게 능가한다.
상세 분석
이 연구는 비디오 복원 분야에서 가장 큰 난제 중 하나인 ‘실제 빗물 영상에 대한 일반화’ 문제를 근본적으로 재정의한다. 기존 접근법은 크게 두 축으로 나뉜다. 첫 번째는 합성 빗물 데이터를 이용한 지도학습으로, 현실과의 도메인 갭이 크다. 두 번째는 정적 카메라에서 수집된 비디오를 활용한 비지도·반지도 학습으로, 동적인 배경·카메라 움직임을 충분히 포착하지 못한다. 이러한 한계를 극복하기 위해 저자는 사전학습된 대규모 텍스트‑투‑비디오 디퓨전 모델(예: CogVideoX 기반 MM‑DiT)을 그대로 활용한다. 핵심 아이디어는 ‘디퓨전 역변환( inversion )’을 통해 입력 비디오를 잠재 노이즈 x_T 로 매핑하고, 재구성 과정에서 ‘부정 프롬프트(negative prompting)’와 ‘어텐션 스위칭(attention‑switching)’을 적용해 빗물 개념을 모델의 내부 표현에서 의도적으로 배제한다는 점이다.
역변환 단계에서는 DDPM 기반의 확률적 역전파 방식을 채택한다. 기존 DDIM 역변환이 고주파 디테일과 큰 객체 복원에 한계를 보였던 반면, DDPM은 노이즈 스케줄을 그대로 재현함으로써 PSNR ≈ 30 dB 수준의 높은 복원 품질을 달성한다. 이후 재구성 단계에서 두 개의 경로를 만든다. 하나는 ‘null 프롬프트(조건 없음)’로 진행해 원본 영상의 순수한 구조를 복원하고, 다른 하나는 ‘rain’ 혹은 ‘heavy rain’과 같은 텍스트 조건을 부여해 빗물 개념을 명시한다. 두 경로의 스코어 차이를 λ · (ε_null − ε_rain) 형태로 증폭해 원본 스코어에 더함으로써, 클래스‑프리 가이던스와 동일한 메커니즘을 적용한다. 여기서 λ는 빗물 제거 강도를 조절하는 하이퍼파라미터이며, 초기 타임스텝 t_s 이전에는 원본 경로를 그대로 따르게 하여 과도한 변형을 방지한다.
하지만 단순히 스코어 차이를 더하는 것만으로는 배경 왜곡이나 시간적 불일치가 발생한다. 이를 해결하기 위해 저자는 어텐션 스위칭을 도입한다. MM‑DiT 블록은 텍스트와 비디오 토큰을 결합해 공동 어텐션을 수행하므로, K와 V 행렬이 텍스트와 영상 정보를 동시에 포함한다. 저자는 특정 블록 B에서 ‘null 텍스트’에 대응하는 K_text⁰와 V_text⁰를 추출해, ‘rain 텍스트’에 대응하는 K_text^c와 V_text^c를 교체한다. 이렇게 하면 텍스트 조건에 의한 어텐션 흐름만을 선택적으로 차단하면서, 영상 토큰에 대한 자체 어텐션은 그대로 유지한다. 결과적으로 배경 구조와 움직임은 보존되고, 빗물에 해당하는 시각적 요소만이 억제된다. 실험에서는 3~5개의 블록에서 스위칭을 적용하는 것이 최적의 트레이드오프를 제공한다는 것이 확인되었다.
성능 평가에서는 실제 비디오 데이터셋(예: NTURain, RealRain 등)에서 PSNR, SSIM, LPIPS 등 정량 지표와 시각적 일관성을 동시에 측정했다. 제로샷 방법은 기존 RainMamba, TUR‑TLE 등 최신 지도학습 기반 모델을 평균 2.5 dB 이상 능가했으며, 특히 시간적 일관성(temporal flicker) 측면에서 눈에 띄는 개선을 보였다. 또한, 부정 프롬프트와 어텐션 스위칭을 각각 제거한 ablation 실험에서 성능이 크게 저하되는 것을 확인해 두 요소가 상호보완적으로 작용함을 입증했다.
이 논문의 주요 기여는 (1) 합성 데이터 없이도 대규모 사전학습 디퓨전 모델만으로 비디오 복원을 수행하는 최초의 제로샷 프레임워크를 제시한 점, (2) 공동 어텐션 구조에서 텍스트‑조건 어텐션을 선택적으로 차단하는 어텐션 스위칭 메커니즘을 설계해 구조 보존과 노이즈 제거를 동시에 달성한 점, (3) 부정 프롬프트를 텍스트‑투‑비디오 디퓨전 모델에 적용해 특정 물리적 현상(빗물)을 효과적으로 억제할 수 있음을 실증한 점이다. 향후 이 접근법은 비디오 디노이징, 안개·눈 제거 등 다른 기상 현상에도 확장 가능할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기