열화상 SLAM을 위한 학습 기반 오도메트리와 3D 가우시안 스플래팅 통합 시스템

열화상 SLAM을 위한 학습 기반 오도메트리와 3D 가우시안 스플래팅 통합 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 열화상 카메라의 저조도·연무·연기 환경에서도 강인한 모션 추정과 고밀도 3D 재구성을 목표로, 학습 기반 오도메트리와 최신 3D Gaussian Splatting을 결합한 TOM‑GS 파이프라인을 제안한다. 16‑bit 열영상의 8‑bit 변환을 위한 전용 이미지 강화, 사전 학습된 단일 이미지 깊이 예측, 그리고 DROID‑SLAM을 기반으로 한 열화상 전용 오도메트리 모듈을 설계하였다. 추정된 포즈와 정제된 깊이 맵을 이용해 가우시안 프리미티브를 최적화함으로써 고품질 밀집 맵과 새로운 시점 렌더링을 실현한다. RRXIO·VIVID 벤치마크에서 기존 학습 기반 방법들을 크게 앞서며, 강화·깊이 사전·GS 통합이 열화상 SLAM 성능을 크게 향상시킴을 실험적으로 입증한다.

상세 분석

본 연구는 열화상 SLAM 분야에서 두 가지 핵심 난제를 동시에 해결한다. 첫 번째는 열영상이 14‒16 bit 고다이내믹 레인지와 저텍스처·저대비 특성을 가지고 있어 기존 RGB‑전용 학습 모델에 바로 적용하기 어렵다는 점이다. 이를 위해 저자는 Fieldscale 기반의 적응형 이미지 강화 모듈을 도입해 열영상의 히스토그램을 8‑bit 그레이스케일로 변환한다. 이 과정은 단순 선형 스케일링이 아닌, 지역적 대비를 강화하고 노이즈를 억제하는 비선형 매핑을 수행함으로써, 사전 학습된 깊이 예측 네트워크와 DROID‑SLAM 같은 오도메트리 네트워크가 입력으로 활용할 수 있는 품질을 확보한다.

두 번째 난제는 열영상만으로는 충분히 풍부한 기하학적 정보를 얻기 어려워, 전통적인 기하학 기반 SLAM이 다양한 환경에서 불안정하다는 점이다. 저자는 DROID‑SLAM의 구조를 그대로 차용하되, 열화상 전용 ConvGRU‑기반 흐름 예측, Dense Bundle Adjustment(DBA) 레이어, 그리고 DSO‑스타일의 깊이·스케일 정합 레이어를 추가한다. 특히, 사전 학습된 단일 이미지 깊이 예측기(Depth Anything, ZoeDepth, Metric3D 등)를 통합해 DROID‑SLAM이 제공하는 상대 깊이와 절대 깊이 사이의 어핀 변환을 공동 최적화한다. 이 어핀 파라미터는 고오차 픽셀에 대한 정규화와 저오차 픽셀에 대한 스케일·시프트 보정을 동시에 수행하도록 설계돼, 열영상의 스케일 불확실성을 효과적으로 감소시킨다.

오도메트리 단계에서 얻어진 키프레임 포즈와 정제된 깊이 맵은 3D Gaussian Splatting(GS) 매핑 모듈에 전달된다. GS는 각 Gaussian을 색(그레이스케일 강도), 불투명도, 중심 위치, 스케일(공분산)으로 파라미터화하고, 투영‑블렌딩 과정을 통해 고해상도 이미지와 깊이 맵을 렌더링한다. 저자는 기존 GS‑SLAM에서 흔히 사용되는 포즈 재정합을 비활성화해 오도메트리에서 제공된 절대 포즈와 일관성을 유지한다. 또한, 키프레임 선택 시 공시야(co‑visibility) 기준을 적용해 중복을 최소화하고, 타일 기반 16×16 블록 처리로 연산 효율성을 확보한다.

실험에서는 두 개의 공개 열화상 SLAM 데이터셋(RRXIO, VIVID)을 사용해 트래킹 정확도(ATE, RPE)와 렌더링 품질(PSNR, SSIM) 모두에서 기존 학습 기반 방법(DROID‑SLAM, GLORIE‑SLAM 등)을 크게 앞선다. Ablation study에서는 (1) 이미지 강화 없이 8‑bit 변환만 수행했을 때 성능 급락, (2) 깊이 사전 없이 순수 DROID‑깊이에만 의존했을 때 고오차 픽셀 비율 증가, (3) GS‑포즈 재정합을 활성화했을 때 오도메트리와의 불일치가 발생하는 현상을 확인한다. 이러한 결과는 열화상 특성에 맞춘 전처리와 깊이 정합, 그리고 GS 기반 밀집 표현이 상호 보완적으로 작용함을 입증한다.

전반적으로 본 논문은 (1) 열화상 전용 이미지 강화, (2) 학습 기반 오도메트리와 단일 이미지 깊이 사전의 융합, (3) 최신 3D Gaussian Splatting을 통한 고품질 밀집 맵 생성이라는 세 축을 체계적으로 결합함으로써, 열화상 SLAM 분야에서 최초로 고밀도 재구성과 정확한 모션 추정을 동시에 달성한 점이 가장 큰 공헌이다. 향후 다중 센서 융합이나 실시간 구현을 위한 경량화 연구에 대한 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기