비디오 객체 제거를 위한 확률적 브리지 모델
초록
본 논문은 기존의 잡음‑to‑데이터 방식 대신, 입력 비디오 자체를 강력한 구조적 사전으로 활용하는 확률적 브리지(bridge) 모델을 제안한다. VP‑SDE 기반의 데이터‑to‑데이터 경로를 통해 객체가 포함된 원본 비디오에서 객체가 제거된 목표 비디오로 직접 전이하며, 마스크 특성에 따라 입력 임베딩을 동적으로 조절하는 Adaptive Mask Modulation(AMM) 전략을 도입해 대형 객체 제거 시 발생하는 경계 문제를 완화한다. 실험 결과, 시각적 품질과 시간적 일관성 모두에서 기존 diffusion 기반 방법들을 크게 앞선다.
상세 분석
본 연구는 비디오 객체 제거(task)를 “비디오‑to‑비디오 변환” 문제로 재정의하고, 이를 확률적 브리지 모델로 구현한다. 핵심 아이디어는 원본 비디오(객체가 포함된)를 사전 분포로 사용하고, 목표 비디오(객체가 사라진)와의 직접적인 확률 경로를 설계함으로써, 기존의 무작위 Gaussian 잡음에서 시작하는 diffusion 방식이 갖는 구조 정보 손실을 방지하는 것이다. 이를 위해 저자들은 먼저 VAE(Variational Auto‑Encoder) 인코더를 이용해 입력 비디오와 마스크를 고차원 잠재 공간(z_src, z_tgt, z_M)으로 압축한다. 여기서 z_src는 두 가지 역할을 수행한다. 첫째, 브리지 과정의 시작점(시간 t=1)으로서 강력한 사전 분포를 제공하고, 둘째, z_src와 마스크 z_M을 결합한 조건 입력 y를 통해 네트워크에 배경 정보를 직접 전달한다.
브리지 과정 자체는 VP‑SDE(Variance‑Preserving Stochastic Differential Equation) 기반으로 정의된다. 기존 Brownian Bridge가 선형 보간에 잡음만을 추가하는 반면, VP‑SDE는 시간‑종속 노이즈 스케줄 β(t)와 드리프트 f(t)를 도입해 고차원 비디오 데이터에 적합한 SNR 조절을 가능하게 한다. 이때 중간 상태 z_t는 a_t·z_tgt + b_t·z_src + c_t·ε 형태의 삼중 보간식으로 샘플링되며, a_t, b_t, c_t는 전체 분산 σ_t에 의해 엄격히 계산된다(식 4, 10).
학습 목표는 “velocity‑matching”이다. 중간 상태 z_t에 대한 실제 속도 u_t를 이론적으로 도출하고, 네트워크 v_θ가 예측한 속도와의 L2 차이를 최소화한다(L_bridge, 식 12). 이 방식은 기존의 score‑matching과 동등함을 증명했으며, 따라서 네트워크는 브리지 경로 전역을 직접 학습한다.
대형 객체 제거 시, 강력한 z_src 사전이 과도하게 배경을 고정시켜 객체 영역을 충분히 변형하지 못하는 문제가 발생한다. 이를 해결하기 위해 Adaptive Mask Modulation(AMM)을 도입한다. AMM은 마스크의 면적·형태·경계 복잡도 등을 정량화한 스칼라 λ를 계산하고, 이를 기반으로 입력 임베딩 y의 가중치를 동적으로 스케일링한다. 즉, 큰 마스크일수록 λ가 감소해 z_src의 영향이 약해지고, 작은 마스크일수록 λ가 증가해 배경 보존이 강화된다. 이 메커니즘은 학습 및 추론 단계 모두에서 적용 가능하며, 배경 충실도와 생성 유연성 사이의 트레이드오프를 자동으로 조정한다.
추론 단계에서는 역 VP‑SDE를 수치적으로 풀어 z_src에서 z_tgt로 이동한다. 네트워크가 예측한 속도 ˆv_t를 이용해 현재 상태 z_t에서 목표 잠재 ẑ_0|t를 역계산하고, 이를 기반으로 시간 스텝을 감소시키는 변분‑corrected 샘플링 전략을 적용한다. 최종적으로 디코더를 통해 잠재를 복원하면, 마스크 영역은 자연스럽게 배경과 융합된 영상이 생성된다.
실험에서는 DAVIS, YouTube‑VOS 등 다양한 비디오 인페인팅 벤치마크와 자체 구축한 BridgeRemoval‑Bench를 사용해 정량·정성 평가를 수행했다. PSNR/SSIM, LPIPS, 그리고 시간적 일관성을 측정하는 Warped‑LPIPS에서 기존 Diffusion‑based 방법(DiffEraser, R‑OSE 등)을 크게 앞섰으며, 특히 대형 객체(예: 사람 전체, 차량) 제거 시 시각적 왜곡이 현저히 감소했다. 또한, AMM을 사용하지 않은 버전과 비교했을 때, 대형 마스크에 대한 복원 품질이 평균 1.2dB 이상 향상되는 등 효과가 입증되었다.
결론적으로, 본 논문은 비디오 객체 제거에 있어 “데이터‑to‑데이터” 확률 경로를 제시함으로써 구조적 사전 활용과 생성 유연성을 동시에 달성한다. VP‑SDE 기반 브리지와 Adaptive Mask Modulation이라는 두 핵심 기법은 향후 비디오 편집·인페인팅 분야에서 널리 적용될 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기