불확실한 모달리티에서도 강인한 보행자 탐지를 위한 RGB‑NIR‑TIR 삼중모달 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 RGB, NIR, TIR 3가지 센서를 동시에 이용한 TRNT 데이터셋을 새롭게 구축하고, 입력 모달리티가 임의로 결합될 수 있는 상황에서도 정확히 보행자를 탐지할 수 있는 AUNet을 제안한다. AUNet은 불확실성 인식 라우터와 CLIP 기반 의미 정제, 그리고 모달리티‑인식 인터랙션 모듈을 통해 가용한 모달리티를 자동 판별·보강하고, 동적 융합 전략을 적용한다. TRNT와 기존 LLVIP 데이터셋에서 다양한 모달리티 조합에 대해 기존 방법보다 현저히 높은 검출 성능을 입증한다.

상세 분석

본 연구는 기존의 RGB‑TIR 기반 교차모달 보행자 탐지(CMPD) 방법이 ‘고정된 두 모달리티’ 전제에 머무는 한계를 정확히 짚어낸다. 실제 현장에서는 센서 고장, 환경 변화, 전력 제약 등으로 RGB, NIR, TIR 중 일부만 확보되는 경우가 빈번히 발생한다. 이러한 불확실성을 무시하면 특징 융합 단계에서 잡음이 증폭돼 검출 정확도가 급격히 떨어진다. 논문은 이를 해결하기 위해 세 가지 핵심 설계를 제시한다. 첫째, **Unified Modality Validation Refinement (UMVR)**는 경량 MLP 기반 불확실성‑인식 라우터를 통해 각 입력의 존재 여부를 0/1 이진값으로 판단한다. 라우터 출력은 가용성 검증 손실(L_V)로 실제 입력 상태와 정합시켜 학습한다. 둘째, 라우터가 ‘가용’이라고 판단한 모달리티라도 내부 잡음(예: 야간 RGB의 인공조명 반사)으로 인해 오히려 성능을 저하시킬 수 있다. 이를 보완하기 위해 **CLIP‑Driven Semantic Refinement (CSR)**를 도입한다. 사전 학습된 CLIP 이미지 인코더의 전역 의미 표현을 1×1 컨볼루션으로 변환해 각 픽셀에 가중치 맵(M)을 생성하고, 이 맵을 원본 특징에 곱·합해 보행자에 집중된 강화 특징(F_csr)을 얻는다. CSR는 실제 보행자 분포 지도와의 대비 손실(L_CR)로 지도 학습된다. 셋째, Modality‑Aware Interaction (MAI) 모듈은 UMVR의 이진 가용성 신호를 입력받아 내부 교차‑어텐션 혹은 피드‑포워드 블록을 동적으로 활성·비활성한다. 즉, 가용한 모달리티가 두 개이면 두 모달리티 간 상호작용만 수행하고, 하나만 있으면 자체적인 단일‑모달 처리로 전환한다. 이러한 설계는 **공유 가중치 백본(F_θ)**을 사용해 모든 모달리티에 동일한 파라미터를 적용함으로써 연산량을 크게 절감하고, 모달리티 수 변화에 대한 구조적 재설계 없이도 학습·추론이 가능하도록 만든다. 실험에서는 새로 만든 TRNT 데이터셋(8281개의 정밀 정렬 RGB‑NIR‑TIR 트리플)과 기존 LLVIP 데이터셋을 활용해, 단일‑모달, 이중‑모달, 삼중‑모달 등 7가지 입력 조합 전부에서 AUNet이 기존 RGB‑TIR 전용 모델보다 평균 4~7% AP 상승을 기록했다. 특히 NIR이 포함된 경우 야간 시나리오에서 TIR의 실루엣만으로는 놓치기 쉬운 작은 보행자를 효과적으로 복구한다는 점이 두드러진다. 전체적으로 본 논문은 ‘불확실한 모달리티’라는 현실적 문제를 정량·정성적으로 분석하고, 라우팅·정제·동적 융합이라는 세 단계 접근법으로 해결책을 제시함으로써 멀티스펙트럼 보행자 탐지 분야에 중요한 전진을 이룬다.

불확실한 모달리티에서도 강인한 보행자 탐지를 위한 RGB‑NIR‑TIR 삼중모달 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기