단일 카메라 3D 객체 탐지를 위한 효율적 특징 집합 및 스케일 인식 회귀
초록
MonoASRH는 전역 주의를 위한 멀티‑헤드 어텐션과 경량 CNN을 결합한 효율적 하이브리드 특징 집합 모듈(EH‑FAM)과 2D 박스 크기를 활용해 동적 수용 영역을 조정하는 스케일‑인식 3D 회귀 헤드(ASRH)를 제안한다. KITTI와 Waymo 데이터셋에서 기존 방법들을 넘어서는 성능을 달성한다.
상세 분석
본 논문은 단일 RGB 이미지만을 이용해 3D 객체를 정확히 검출하는 과제의 두 가지 핵심 한계를 짚는다. 첫째, 기존 중심 기반 방식은 주로 로컬 피처에 의존해 전역 컨텍스트가 부족하고, 특히 작은 물체나 먼 거리의 객체를 놓치기 쉽다. 둘째, 물체의 스케일이 장면 깊이에 따라 크게 변동함에도 불구하고 고정된 수용 영역(receptive field)을 사용하면 배경 잡음이 섞여 특성 표현이 약화된다. 이를 해결하기 위해 저자는 두 개의 주요 모듈을 설계하였다.
-
Efficient Hybrid Feature Aggregation Module (EH‑FAM)
- 가장 높은 레벨 피처(S₄)에 8‑head 멀티‑헤드 셀프 어텐션을 적용해 전역적인 의미 정보를 추출한다. 어텐션은 위치 임베딩을 포함해 시퀀스 형태로 변환한 뒤, Q, K, V 행렬을 통해 가중합을 수행하고, 이후 FFN과 재구성을 거쳐 공간 차원으로 복원한다.
- 저해상도 피처들을 고해상도로 복원하기 위해 전통적인 DLA‑Up의 대형 전치 컨볼루션 대신 7×7 컨볼루션(1×7, 7×1 분해) 후 bilinear upsampling을 사용한다. 이는 파라미터와 연산량을 크게 절감하면서도 작은 물체에 대한 감도를 높인다.
- Fusion Block에서는 RepVGGplus 구조를 도입해 학습 시 다중 브랜치(3×3, 1×1, identity) 형태를 유지하고, 추론 시 단일 3×3 컨볼루션으로 재구성한다. 이는 모델 복잡도는 낮추면서도 표현력을 유지한다.
-
Adaptive Scale‑Aware 3D Regression Head (ASRH)
- 2D 검출 헤드에서 얻은 박스 크기(w₂D, h₂D)를 인코딩해 스케일 피처를 생성한다. 이 스케일 피처와 RoI‑Align으로 추출한 로컬 시맨틱 피처를 “scale‑semantic fusion module”에서 결합한다.
- 결합된 피처는 동적 수용 영역 오프셋을 학습하도록 가이드한다. 구체적으로, 오프셋은 deformable convolution에 적용돼 물체 크기에 맞춰 receptive field를 자동 조정한다. 이는 작은 물체는 좁은 영역, 큰 물체는 넓은 영역을 커버하도록 하여 스케일 편향을 완화한다.
- 또한, spatial variance‑based attention을 통해 전경과 배경을 구분하고, “Selective Confidence‑Guided Heatmap Loss”를 도입해 높은 confidence 샘플에 가중치를 부여함으로써 학습 안정성을 높인다.
실험에서는 KITTI 3D 검출 벤치마크와 Waymo Open Dataset에서 기존 최첨단 방법들을 앞선 mAP와 AP₃D를 기록했다. 특히, 먼 거리의 작은 차량·보행자 검출에서 눈에 띄는 개선을 보였으며, 파라미터 수와 FLOPs 측면에서도 효율성을 입증했다.
이 논문의 주요 기여는 (1) 전역 어텐션과 경량 CNN을 결합한 효율적인 크로스‑스케일 피처 집합 구조, (2) 2D 박스 스케일 정보를 직접 활용해 동적 수용 영역을 학습하는 스케일‑인식 회귀 헤드, (3) 선택적 손실 설계로 학습 안정성을 강화한 점이다. 이러한 설계는 단일 카메라 기반 3D 인식 시스템을 실시간 자율주행에 적용하기 위한 중요한 전진을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기