모노 카메라 기반 3D 다중 객체 추적: 딥러닝 검출과 PMBM 필터의 결합
본 논문은 단일 카메라 이미지에서 2D 경계 상자와 거리 정보를 동시에 추정하는 딥러닝 검출기를 개발하고, 이를 최신 Poisson Multi‑Bernoulli Mixture(PMBM) 필터와 결합하여 3차원 세계 좌표계에서 차량을 실시간으로 추적한다. KITTI 데이터셋 실험에서 20 FPS에 근접하는 속도로 높은 추적 정확도와 견고한 데이터 연관성을 입증하였다.
저자: Samuel Scheidegger, Joachim Benjaminsson, Emil Rosenberg
본 논문은 자동차 자율주행 시스템에서 비용 효율성이 높은 모노 카메라만을 이용해 3차원 다중 객체 추적을 구현하는 방법을 제시한다. 먼저, 이미지에서 객체의 2D 바운딩 박스와 카메라로부터의 거리(d)를 동시에 추정하도록 설계된 딥러닝 검출기를 소개한다. 이 검출기는 DRN‑C‑26을 기반으로 하며, 마지막 두 분류 레이어를 제거하고 세 개의 병렬 헤드(클래스, 박스, 거리)를 추가한다. 각 헤드는 1×1 컨볼루션과 서브픽셀 업샘플링을 거쳐 입력 이미지의 1/4 해상도로 출력한다. 거리와 박스 회귀는 라이다에서 얻은 실제 거리 라벨을 사용해 지도학습했으며, 손실은 클래스에 교차 엔트로피, 회귀에 스무스 L1을 적용한다. 검출 결과는 Soft‑NMS를 통해 중복을 제거하고, 높은 신뢰도의 박스만을 최종 검출로 남긴다.
검출된 객체 집합 Z_k는 Random Finite Set(RFS) 형태로 표현되며, 이후 PMBM 필터에 입력된다. PMBM은 포아송 점 과정(PPP)으로 모델링된 객체 출현·미검출·클러터와 베르누이 과정으로 모델링된 기존 객체를 결합한 다중 베르누이 혼합(MBM) 구조를 갖는다. 예측 단계에서는 표준 상수 가속도 모델을 사용해 각 베르누이 성분의 상태와 공분산을 전파하고, PPP는 새로운 객체 출현을 위한 베이즈 예측을 수행한다. 업데이트 단계에서는 측정 모델 a(x)와 측정 잡음 공분산 R을 이용해 가우시안 형태의 측정 likelihood를 계산하고, 검출 확률 p_D와 클러터 강도 λ를 반영해 베이즈 업데이트를 수행한다. 데이터 연관은 다중 가설(각 MB가 하나의 연관 시나리오)을 유지하면서 가중치를 갱신함으로써, 객체가 겹치거나 검출이 누락되는 상황에서도 안정적인 추적을 가능하게 한다. 최종 추정 단계에서는 존재 확률 r이 사전 정의된 임계값을 초과하는 베르누이 성분을 선택하고, 그 평균 상태를 출력한다.
실험은 KITTI 트래킹 데이터셋을 사용해 수행되었다. 3D 세계 좌표계에서의 IoU와 2D 이미지 평면에서의 MOTA, MOTP 지표 모두에서 상위 성능을 기록했으며, 특히 객체 간 중첩이 심한 시퀀스에서도 정확한 연관을 유지했다. 처리 속도는 평균 19.8 FPS로, 실시간 적용이 가능한 수준이다. 논문은 라이다와 같은 깊이 센서 없이도 딥러닝 기반 거리 추정과 확률적 다중 객체 필터를 결합함으로써, 비용 효율적이면서도 정확한 3D 트래킹이 가능함을 입증한다. 향후 연구에서는 보행자와 자전거 등 다양한 클래스에 대한 확장과, 더 복잡한 동적 환경에서의 견고성 향상을 목표로 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기