실제 환경에서도 안정적인 영상 객체 제거를 위한 SVOR 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 그림자·반사·급격한 움직임·불완전 마스크 등 현실적인 결함이 존재하는 상황에서도 영상 객체 제거의 시각적 일관성과 시간적 안정성을 유지하도록 설계된 Stable Video Object Removal (SVOR) 시스템을 제안한다. 핵심 설계는 (1) 급격한 움직임에 대비한 마스크 다운샘플링 단계에서 대상 영역을 모두 보존하는 Mask Union for Stable Erasure (MUSE), (2) 확산 과정에 인식된 노이즈 정보를 활용해 내부 위치 사전 정보를 제공하는 Denoising‑Aware Segmentation (DA‑Seg), (3) 실제 배경 영상으로 사전 학습한 뒤 합성 데이터로 정제하는 두 단계 커리큘럼 학습이다. 실험 결과, SVOR은 기존 Diffusion 기반 비디오 인페인팅 모델들을 넘어 다양한 데이터셋과 마스크 결함 벤치마크에서 새로운 최첨단 성능을 달성한다.

상세 분석

SVOR 논문은 영상 객체 제거(VOR) 분야에서 “완벽한 마스크”와 “정밀한 시간 정렬”이라는 이상적인 전제조건이 현실에서는 거의 충족되지 않는다는 점을 정확히 짚어낸다. 기존 Diffusion 기반 비디오 인페인팅 모델들은 마스크를 시간적으로 압축하거나 다운샘플링하면서 급격한 객체 움직임이 발생하는 구간에서 마스크가 사라지는 현상을 보이며, 이는 결과 영상에 잔여 객체나 깜박임(flicker)으로 나타난다. 논문은 이를 해결하기 위해 MUSE라는 간단하지만 효과적인 전략을 도입한다. MUSE는 일정 시간 윈도우 내 모든 프레임의 마스크를 논리합(OR) 연산으로 결합해, 윈도우 안에 잠깐 등장하는 객체 위치까지 모두 보존한다. 이렇게 하면 다운샘플링 과정에서 발생하는 “마스크 손실”을 방지하면서도 연산량은 거의 증가하지 않는다.

두 번째 핵심인 DA‑Seg는 마스크가 불완전하거나 손상된 경우에도 정확한 객체 위치를 추정하도록 설계된 경량 세그멘테이션 헤드이다. 기존 방법들은 마스크를 직접 백본에 피드하거나, 마스크 예측을 반복적으로 사용해 생성 과정을 방해한다. 반면 SVOR은 DA‑Seg를 디코더와는 별도의 사이드 브랜치에 두고, Denoising‑Aware AdaLN을 통해 현재 Diffusion timestep 정보를 정규화 파라미터에 주입한다. 이는 노이즈 레벨에 따라 세그멘테이션이 점진적으로 정교해지게 하여, 높은 노이즈 단계에서도 안정적인 위치 사전 정보를 제공한다. 중요한 점은 이 마스크가 백본의 노이즈 예측에 직접 사용되지 않으며, 오직 손실 함수에서만 정답 마스크와 비교해 학습된다는 것이다. 따라서 생성 품질을 저해하지 않으면서도 “내부 위치 사전”을 확보한다.

학습 전략은 두 단계 커리큘럼으로 구성된다. Stage I에서는 실제 배경 영상(객체가 거의 없는 클립)만을 사용해 온라인으로 무작위 마스크를 생성하고, 이를 통해 배경 복원 능력을 사전 학습한다. 이 단계는 객체‑그림자 관계와 같은 복잡한 상관관계를 강제하지 않으므로, 모델이 “전경을 재생성”하려는 경향을 억제하고 순수한 배경 완성 능력을 길러준다. Stage II에서는 합성된 페어 데이터(객체 + 그림자/반사 포함)를 이용해 정밀한 정규화 손실과 함께 마스크 손상(프레임 드롭아웃, 형태 변형, 박스 기반 대체)도 적용한다. 여기서 DA‑Seg와 MUSE가 결합돼, 불완전 마스크 하에서도 객체와 부수 효과(그림자·반사)를 동시에 제거하도록 학습된다.

실험에서는 기존 MiniMax‑Remover와 ROSE를 포함한 여러 최첨단 모델을 다양한 데이터셋(RORD‑50, DAVIS, ROSE‑Bench 등)과 마스크 결함 변형에서 비교한다. SVOR은 PSNR/SSIM뿐 아니라 Temporal Warping Error, Flicker Score 등 시간적 일관성을 측정하는 지표에서도 일관되게 우수한 성능을 보이며, 특히 급격한 움직임 구간과 마스크가 크게 손상된 상황에서 눈에 띄는 개선을 기록한다. Ablation study는 MUSE가 급격한 움직임에 대한 언더‑이레이저(under‑erasure)를 크게 감소시키고, DA‑Seg가 높은 노이즈 단계에서의 위치 추정 정확도를 향상시킴을 입증한다. 또한, 두 단계 학습이 단일 단계 학습 대비 그림자·반사 제거 정확도를 10% 이상 끌어올리는 효과가 확인된다.

한계점으로는 현재 MUSE가 윈도우 크기를 고정(예: 5프레임)하고 있어, 매우 긴 움직임이나 복잡한 카메라 트래킹 상황에서는 여전히 마스크 손실이 발생할 가능성이 있다. 또한 DA‑Seg는 경량 헤드이지만 추가 파라미터와 메모리를 요구하므로, 실시간 적용을 위해서는 더 가벼운 설계가 필요할 수 있다. 마지막으로 합성 데이터에 의존하는 Stage II가 실제 도메인과 완전히 일치하지 않을 경우, 아직 남아 있는 도메인 갭을 완전히 메우지는 못한다는 점이 있다.

전반적으로 SVOR는 “마스크 손실”, “불완전 마스크”, “부수 효과”라는 세 가지 현실적 문제를 체계적으로 분석하고, 각각을 해결하기 위한 설계(MUSE, DA‑Seg, 커리큘럼 학습)를 제시함으로써 비디오 객체 제거 분야에 중요한 전진을 이룬다. 향후 연구는 MUSE의 동적 윈도우 조정, DA‑Seg의 초경량화, 그리고 실제 사용자 피드백을 통한 마스크 보정 루프 등을 통해 실시간·실사용 환경으로 확장할 여지가 충분히 있다.

실제 환경에서도 안정적인 영상 객체 제거를 위한 SVOR 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기