양방향 정렬을 이용한 스테레오 비디오 매칭
초록
본 논문은 스테레오 비디오에서 시간적 일관성을 확보하기 위해 인접 프레임 간 양방향 정렬 메커니즘을 제안한다. 이를 기반으로 전체 시퀀스에 걸친 전역 전파를 수행하는 BiDAStereo 프레임워크와 기존 이미지 기반 스테레오 모델에 플러그인 형태로 적용 가능한 BiDAStabilizer를 설계하였다. 또한 실외 자연 장면을 중심으로 한 대규모 합성 데이터셋과 다양한 도심 환경을 촬영한 실세계 데이터셋을 새롭게 제공한다. 실험 결과, 제안 방법은 기존 영상 기반 스테레오 방법 대비 시간적 플리커링을 크게 감소시키며, 주요 공개 벤치마크에서 최첨단 성능을 달성한다.
상세 분석
본 연구는 스테레오 비디오 매칭에서 가장 큰 난제 중 하나인 시간적 일관성 문제를 근본적으로 해결하고자 한다. 기존 이미지 기반 스테레오 네트워크를 프레임 단위로 적용하면 각 프레임마다 독립적으로 disparity를 예측하게 되며, 움직이는 물체나 카메라가 변할 때 심각한 플리커링 현상이 발생한다. 이러한 현상을 완화하기 위해 최근 연구들은 슬라이딩 윈도우 방식으로 과거·미래 프레임을 결합했지만, 윈도우 크기에 비례하는 저주파 진동이 남아 있다. 논문은 “양방향 정렬(bidirectional alignment)”이라는 새로운 연산을 도입함으로써, 인접 프레임 사이의 피처를 양쪽 방향으로 정렬하고, 정렬된 피처를 기반으로 비용(volume)과 컨텍스트를 동시에 보강한다.
BiDAStereo는 두 단계로 구성된다. 첫 번째는 로컬 단계에서 삼중 프레임 상관(correlation) 레이어를 사용해 현재 프레임과 이전·다음 프레임 사이의 정렬된 특징을 결합, 보다 정확한 비용 볼륨을 생성한다. 여기서 정렬은 광류 기반의 사전 예측을 이용해 각 프레임을 중심 프레임에 맞추는 방식이며, 양방향으로 수행해 정합 오류를 최소화한다. 두 번째는 전역 단계에서 Motion‑Propagation Recurrent Unit(MPRU)을 도입해 정렬된 피처를 시퀀스 전체에 걸쳐 순환적으로 전파한다. MPRU는 과거와 미래의 상태를 모두 받아들이며, 시간적 수용 영역을 윈도우 제한 없이 확장한다. 결과적으로 전체 시퀀스에서 일관된 disparity를 얻을 수 있다.
플러그인 형태의 BiDAStabilizer는 기존 이미지 기반 스테레오 네트워크(예: PSMNet, RAFTStereo 등)를 그대로 유지하면서, 그 출력 disparity를 중심 프레임으로 정렬하고 양방향 정렬된 피처를 이용해 시간적 일관성을 보정한다. 이는 추가 학습 없이도 기존 모델에 즉시 적용 가능하도록 설계되었으며, 실험에서 기존 모델 대비 플리커링 감소와 정밀도 향상을 동시에 달성했다.
데이터 측면에서도 중요한 기여가 있다. 기존 합성 데이터셋(SceneFlow, FallingThings 등)은 실내 혹은 인공 객체 중심으로 구성돼 실제 야외 환경과 큰 격차를 보였다. 저자는 자연 풍경(산, 평원 등)을 기반으로 한 대규모 합성 데이터셋(Infinigen SV)과, 다양한 날씨·조명 조건을 포함한 실세계 스테레오 비디오 데이터셋(SouthKen SV)을 공개한다. 두 데이터셋은 각각 16,800·1,848 프레임(합성)과 107,821·(의사)프레임(실세계) 규모이며, 고해상도(1280×720)와 정확한 깊이 라벨을 제공한다.
실험에서는 In-domain(제공 데이터셋), Out-of-domain(SceneFlow, KITTI 등), 그리고 잡음·조명 변화에 대한 로버스트 테스트를 수행했다. 정량 지표(EPE, D1‑error)와 정성 평가(시각적 플리커링) 모두에서 BiDAStereo와 BiDAStabilizer가 기존 최첨단 방법을 앞섰으며, 특히 장시간 시퀀스에서 저주파 진동이 현저히 감소했다. 또한, 플러그인 방식 덕분에 기존 이미지 기반 모델을 재학습 없이 바로 향상시킬 수 있다는 실용적 장점이 강조된다.
한계점으로는 정렬 단계에서 광류 추정 정확도에 의존한다는 점과, 매우 빠른 움직임이나 급격한 조명 변화가 있는 경우 정렬 오류가 전파될 가능성이 있다. 향후 연구에서는 학습 기반 정렬 모듈을 도입해 광류 의존성을 완화하고, 멀티스케일 정렬 및 비선형 변환을 고려한 확장성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기