DenVisCoM: 실시간 광류·스테레오를 위한 밀집 비전 대응 마마 블록

DenVisCoM: 실시간 광류·스테레오를 위한 밀집 비전 대응 마마 블록
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DenVisCoM은 Mamba 기반의 새로운 시퀀스 블록과 Transformer 기반의 자기·교차 어텐션을 결합한 하이브리드 아키텍처로, 광류와 스테레오 disparity를 동시에 고정밀·실시간으로 추정한다. CNN 기반 피처 추출 후 패치화된 입력을 DenVisCoM 블록에 통합해 양쪽 이미지의 밀집 대응을 학습하고, 이후 경량 어텐션으로 전역 의존성을 보강한다. KITTI와 Sintel 등에서 기존 최첨단 모델 대비 EPE와 F1‑all에서 크게 개선되었으며, 40 FPS 이상의 실시간 처리와 적당한 메모리 사용량을 달성한다.

상세 분석

DenVisCoM 논문은 기존 Mamba 기반 시계열 모델을 비전 분야, 특히 두 이미지 간의 밀집 대응 문제에 직접 적용하기 어려운 점을 정확히 짚고 있다. Mamba는 선형 복잡도의 상태공간 모델(SSM)로, 장거리 의존성을 효율적으로 포착하지만, 이미지 쌍 사이의 교차 정보를 전달하지 못한다는 구조적 한계가 있다. 이를 해결하기 위해 저자들은 ‘DenVisCoM 블록’을 설계했으며, 핵심 아이디어는 (1) 대칭적인 Conv1D‑SiLU 경로를 각각 좌·우 이미지에 두어 개별적인 로컬 정보를 보존하고, (2) ‘Scan’ 경로에서 SSM을 활용해 양쪽 이미지의 패치를 동시에 처리함으로써 시퀀스 변환 단계에서 직접적인 시각적 대응을 학습한다는 점이다. 특히, Fusion 단계에서 좌·우 패치를 임베딩 차원에서 결합한 뒤 SSM에 입력함으로써, 기존 Mamba가 갖는 일방향성의 제약을 넘어 양방향 정보를 동시에 전파한다.

또한, DenVisCoM은 Transformer‑style 어텐션 블록을 병렬로 삽입해 자기‑어텐션(self‑attention)과 교차‑어텐션(cross‑attention)을 모두 수행한다. 자기‑어텐션은 각 이미지 내부의 전역 컨텍스트를 강화하고, 교차‑어텐션은 한 이미지의 쿼리가 다른 이미지의 키·밸류와 매핑되도록 하여 두 이미지 간의 정밀한 매칭을 가능하게 한다. 어텐션 헤드 수를 단계별로 조절해 파라미터 수는 일정하게 유지하면서도 연산량을 효율적으로 관리한다.

구조적 측면에서 저자들은 ResNet‑18 기반의 두 개 별도 CNN 인코더를 사용해 8배 다운샘플된 피처(128 × H/8 × W/8)를 추출하고, 이를 14×14 패치(196) 단위로 재구성한다. 이렇게 만든 패치는 DenVisCoM 블록을 거쳐 다시 어텐션 블록으로 흐르며, 전체 파이프라인은 ‘Mamba‑Attention‑Mamba‑Attention…’ 형태로 n번 반복된다. 마지막 단계에서는 패치 차원을 다시 원래 해상도로 복원하고, 파라미터가 없는 매칭 레이어(행렬 곱·소프트맥스)를 통해 광류와 스테레오 disparity를 계산한다. 이 매칭 레이어는 전통적인 코스트 볼륨을 구축하는 방식과 유사하지만, 고차원 피처를 직접 활용해 연산 효율성을 크게 높인다.

실험에서는 SceneFlow 기반 MemFlow 프로토콜으로 100k 스텝을 학습하고, KITTI‑2015, Sintel, VKITTI1 등 다양한 벤치마크에서 평가했다. 광류에서는 EPE 1.34, F1‑all 2.52로 RAFT(2.45/7.9)와 Unimatch(2.25/7.2)를 크게 앞섰으며, 특히 중·대형 움직임 구간(S10‑40, S40+)에서 0.41/2.00이라는 뛰어난 정확도를 보였다. 스테레오에서는 D1 오류와 메모리 사용량에서도 경쟁 모델 대비 우수한 결과를 기록했다. 또한, RTX A6000 GPU 기준 40 FPS 이상을 달성해 실시간 적용 가능성을 입증했다. 전체적으로 DenVisCoM은 선형 복잡도의 SSM과 전역 의존성을 잡아주는 어텐션을 효과적으로 결합해, 정확도와 속도, 메모리 효율성 사이의 트레이드오프를 최소화한 설계라고 평가할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기