밀도전달기: 조건부 확산 모델로 구현한 스파스·이미지 기반 깊이 완성

밀도전달기: 조건부 확산 모델로 구현한 스파스·이미지 기반 깊이 완성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DenseFormer는 스파스 라이다 깊이와 RGB 이미지를 조건으로 활용해, 조건부 확산 모델을 통해 단계별 디노이징을 수행함으로써 고품질 밀도 깊이 맵을 생성한다. 피라미드형 특징 추출과 다중 레이어 변형 어텐션으로 멀티스케일·멀티모달 정보를 효과적으로 결합하고, 후처리 단계에서 공간 전파 네트워크와 스파스 깊이 정보를 재통합해 경계 보존 및 정밀도를 향상시킨다. KITTI 데이터셋 실험에서 기존 최첨단 방법들을 능가한다.

상세 분석

DenseFormer는 기존 깊이 완성 파이프라인이 초기 밀도 예측 후 반복적인 공간 전파 네트워크(SPN)로 정제하는 방식과 달리, ‘조건부 확산 모델’을 핵심 생성 메커니즘으로 채택한다. 이 접근법은 깊이 완성을 확률적 생성 과정으로 재구성하여, 무작위 초기 깊이 분포를 점진적으로 디노이징함으로써 최종 밀도 깊이 맵을 얻는다. 핵심 기술은 크게 네 부분으로 나뉜다. 첫째, Guidance Feature Extraction Module은 ResNet 기반 백본으로 RGB 이미지와 스파스 깊이 맵을 각각 다중 해상도 피라미드 특징으로 추출한다. 여기서 변형 어텐션(Deformable Attention) 메커니즘을 적용해 고해상도 특징의 연산량을 줄이면서도 중요한 공간 위치에 가중치를 집중한다. 둘째, Diffusion Process Module은 U‑Net 구조를 이용해 현재 단계의 깊이 텐서(z_t)와 추출된 조건(cond)을 결합하고, DDIM(Deterministic Denoising Diffusion Implicit Models) 추론을 통해 z_{t‑1}을 예측한다. 이 과정은 T번의 타임스텝을 거쳐 역전파되며, 각 스텝마다 조건부 가이던스가 깊이 재구성에 직접적인 영향을 미친다. 셋째, 경량화된 Guidance Denoising Module은 다운‑업 샘플링 블록을 통해 다중 스케일 정보를 효율적으로 융합하고, residual 연결을 활용해 학습 안정성을 확보한다. 넷째, Depth Refinement Module은 기존 SPN 아이디어를 확장해, 변형 어텐션으로 얻은 멀티모달 특징과 스파스 깊이 입력을 동시에 활용한다. 다중 범위 이웃을 정의하고, 학습된 어피니티 가중치를 통해 깊이 값을 반복적으로 업데이트함으로써 경계 손실과 과도한 스무딩을 완화한다. 실험 결과, KITTI 벤치마크에서 RMSE, MAE, iRMSE 등 주요 지표에서 기존 CNN‑기반 및 Transformer‑기반 방법들을 앞선 성능을 보였으며, Ablation Study를 통해 각 모듈(피라미드 특징, 변형 어텐션, 확산 단계 수, 후처리 SPN)의 기여도를 정량적으로 입증하였다. 전체적으로 DenseFormer는 생성 모델과 전통적인 공간 전파 기법을 효과적으로 결합함으로써, 스파스 라이다 데이터의 불확실성을 확산 과정에서 자연스럽게 보정하고, 고해상도 이미지 정보를 통해 세밀한 구조를 복원한다는 점에서 의미 있는 진전을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기