워핑만으로 구현하는 초고속 고정밀 옵티컬 플로우 WAFT
초록
WAFT는 기존 RAFT에서 비용 볼륨을 완전히 제거하고 고해상도 워핑만으로 흐름을 업데이트하는 메타‑아키텍처이다. 비용 볼륨이 차지하던 메모리를 크게 절감하면서도 고해상도 피처 인덱싱을 통해 경계 표현과 작은 움직임을 정확히 복원한다. 기존 최첨단 방법들을 능가하는 성능을 보이며, Spring·Sintel·KITTI 벤치마크에서 1위 혹은 2위를 차지하고, 특히 KITTI 제로샷 일반화에서 최고 점수를 기록한다.
상세 분석
WAFT는 “비용 볼륨은 필수”라는 기존 인식을 뒤집는다. 비용 볼륨은 두 프레임 사이의 모든 픽셀 쌍에 대한 상관을 계산해 4차원 텐서를 만들기 때문에 해상도가 커질수록 메모리와 연산량이 제곱적으로 증가한다. 대부분의 최신 방법은 1/8 혹은 1/4 해상도에서 부분 비용 볼륨을 구축하고, 이를 다시 업샘플링해 흐름을 추정한다. 이 과정에서 (1) 저해상도 인덱싱으로 인한 경계 흐림, (2) 대규모 메모리 요구로 인한 하드웨어 제한이 발생한다. WAFT는 이러한 문제를 ‘워핑’이라는 단순 연산으로 대체한다. 현재 흐름 추정 fₜ를 이용해 프레임2의 피처 맵을 역워핑하고, 역워핑된 피처와 프레임1 피처, 그리고 RNN 은닉 상태를 결합해 흐름 잔차를 예측한다. 워핑은 한 픽셀에 대해 단일 대응 피처만을 가져오므로 메모리 사용량이 O(H·W·C) 수준에 머문다.
하지만 워핑만으로는 큰 변위를 직접 모델링하기 어렵다. WAFT는 이를 보완하기 위해 ‘Vision Transformer 기반의 recurrent update module’을 채택한다. 트랜스포머의 전역 self‑attention은 넓은 수용 영역을 제공해, 워핑된 피처가 실제로는 넓은 컨텍스트를 포함하도록 만든다. 실험에서는 DPT(Depth‑Prediction‑Transformer) 구조를 변형해 사용했으며, 이 구조가 큰 변위와 복잡한 텍스처를 효과적으로 처리한다는 것이 입증되었다.
또한 WAFT는 두 가지 백본 적응 방식을 제시한다. (a1) 전체 DAv2 모델을 고정하고 DPT 헤드와 ResNet18을 추가해 특화된 피처를 추출하고, (a2) ViT/CNN 백본만 고정하고 DPT 헤드를 미세조정해 다양한 사전학습 모델을 손쉽게 활용한다. 이 설계는 ‘메타‑아키텍처’라는 개념을 강조하며, 기존 방법에서 필수였던 컨텍스트 인코더와 복잡한 비용 볼륨 파이프라인을 완전히 생략한다.
실험 결과는 설계의 효용을 명확히 보여준다. 동일한 학습 설정에서 WAFT‑T‑wins‑a2는 1/8 해상도 비용 볼륨을 사용하는 SEA‑RAFT 대비 메모리 사용량이 7 GB에서 14 GB 이하로 절반 이하이며, 학습 속도는 1.3배~4.1배 빠르다. 성능 면에서는 Spring, Sintel, KITTI 모두에서 기존 최고 성능을 뛰어넘거나 동등한 결과를 얻었으며, 특히 KITTI 제로샷 테스트에서 가장 낮은 평균 엔드포인트 오류(AEE)를 기록했다.
한계점으로는 (1) 워핑 기반 접근이 여전히 현재 흐름 추정에 크게 의존하므로 초기 흐름이 크게 틀릴 경우 수렴이 어려울 수 있다. (2) 트랜스포머 기반 업데이트 모듈이 메모리 효율성을 어느 정도 회복하지만, 매우 높은 해상도(>4K)에서는 여전히 GPU 메모리 한계에 부딪힌다. (3) 현재는 정적 이미지 쌍에 초점을 맞추었으며, 장시간 비디오 시퀀스에서의 시간 일관성 확보는 별도 연구가 필요하다.
전반적으로 WAFT는 비용 볼륨을 완전히 배제하고도 고해상도 워핑과 트랜스포머 attention을 결합함으로써 메모리·연산 효율성과 정확도 사이의 트레이드오프를 크게 개선한 혁신적인 설계이다. 향후 연구에서는 초기 흐름 생성 전략 강화, 멀티프레임 연속성 모델링, 그리고 경량 트랜스포머 설계 등을 통해 실시간 자율주행 및 모바일 디바이스 적용 가능성을 확대할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기