야간 단일 이미지 깊이 추정을 위한 스페이시오템포럴 프라이어 기반 도메인 적응 프레임워크 DASP

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DASP는 낮에 학습된 깊이 프라이어를 활용해 야간 영상의 저조도·동적 흐림 문제를 해결한다. adversarial branch에서 스페이시오템포럴 프라이어 학습 블록(SPLB)을 통해 시간축 차분과 축‑축 어텐션을 결합한 STLM·ASLM 모듈을 사용하고, self‑supervised branch에서는 3D 투영 일관성 손실을 도입해 두 프레임을 동일 3D 공간에 투사해 구조적 일관성을 강화한다. Oxford RobotCar와 nuScenes 야간 데이터에서 최첨단 성능을 달성한다.

상세 분석

본 논문은 야간 단일 이미지 깊이 추정이라는 난제에 대해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 낮에 학습된 깊이 모델이 제공하는 “스페이시오템포럴 프라이어”를 adversarial 학습을 통해 야간 도메인에 적응시키는 것이다. 이를 위해 저자는 Discriminator에 네 개의 SPLB(Spatiotemporal Priors Learning Block)를 배치했으며, 각 블록은 STLM(Spatial‑based Temporal Learning Module)과 ASLM(Axial Spatial Learning Module)로 구성된다. STLM은 인접 프레임 간의 차분을 수행하는 orthogonal differencing 방식을 적용해 시간축에서의 움직임 변화를 강조한다. 차분 결과는 3×3 컨볼루션으로 전처리된 뒤, 축‑별 비대칭 컨볼루션, 전역 축 어텐션(MH‑Axial Attention) 및 시그모이드 게이트를 거쳐 다중 스케일의 움직임 특징을 추출한다. 반면 ASLM은 이미지의 수직·수평 축에 비대칭 컨볼루션을 적용하고, 전역 축 어텐션을 결합해 구조적 정보를 효율적으로 포착한다. 두 모듈의 출력을 곱셈적으로 융합함으로써, 텍스처가 부족한 어두운 영역과 동적 객체의 블러 현상을 보완할 수 있는 풍부한 스페이시오템포럴 표현을 얻는다.

두 번째 핵심은 self‑supervised 학습 단계에서 기존의 단방향 광학 흐름 기반 재투영 손실을 넘어 3D 투영 일관성 손실(L_proj)을 도입한 점이다. 목표 프레임과 소스 프레임 각각에서 예측된 깊이와 포즈를 이용해 두 픽셀을 동일 3D 좌표계로 투사하고, 그 유클리드 거리의 L2 노름을 최소화한다. 이는 깊이와 포즈가 동시에 최적화되도록 강제하며, 특히 가려짐(occlusion)이나 블러가 심한 영역에서의 불안정성을 크게 감소시킨다. 전체 self‑supervised 손실은 사진계 일관성(L_p), 깊이 스무스(L_ds), 기하학적 일관성(L_geom) 및 3D 투영 일관성(L_proj)을 가중합한 형태이며, 각 가중치는 실험을 통해 0.7, 0.1, 0.5, 0.5 로 설정하였다.

학습 파이프라인은 낮·밤 두 종류의 시퀀스를 동시에 입력받는다. 낮 시퀀스는 사전 학습된 Monodepth2 모델을 고정하여 깊이 프라이어(D_dt, D_ds)를 생성하고, 밤 시퀀스는 현재 학습 중인 깊이·포즈 네트워크가 예측한 D_nt, D_ns와 함께 GAN 구조에 투입된다. Discriminator는 낮 프라이어와 밤 예측을 구분하도록 학습되며, Generator(밤 깊이 예측)는 낮 프라이어와 유사한 스페이시오템포럴 패턴을 생성하도록 압박받는다. 이렇게 도메인 적응이 이루어지면, 밤 이미지에서도 낮과 동일한 구조적 규칙을 활용해 정확한 깊이 지도를 복원한다.

실험 결과는 Oxford RobotCar와 nuScenes 야간 데이터셋에서 기존 최첨단 방법(RNW, STEPS, ADDS 등)을 크게 앞선 성능을 보였다. 특히 Max Depth Error, Abs Rel, RMSE 등 주요 지표에서 15 %~30 % 정도 개선되었으며, 동적 객체(예: 움직이는 차량)의 깊이 일관성도 눈에 띄게 향상되었다. Ablation Study에서는 SPLB 수, STLM·ASLM 각각의 기여도, 3D 투영 일관성 손실의 유무에 따른 성능 변화를 상세히 분석해 각 구성 요소의 필요성을 입증하였다.

한계점으로는 고해상도 영상에서 SPLB의 연산 비용이 증가한다는 점과, 낮 프라이어가 충분히 다양하지 않을 경우 야간 도메인 전이 성능이 제한될 수 있다는 점을 언급한다. 향후 연구에서는 경량화된 축 어텐션 설계와 멀티‑스케일 프라이어 통합, 그리고 라이다와 같은 외부 센서와의 공동 학습을 통해 더욱 견고한 야간 깊이 추정 모델을 구축할 여지가 있다.

야간 단일 이미지 깊이 추정을 위한 스페이시오템포럴 프라이어 기반 도메인 적응 프레임워크 DASP

초록

상세 분석

댓글 및 학술 토론

의견 남기기