TransBridge: 트랜스포머 디코더로 장면 완성하여 3D 객체 감지 성능 높이다
초록
이 논문은 자율주행의 핵심 기술인 LiDAR 기반 3D 객체 감지에서, 점군 데이터가 희소한 원거리 영역의 객체 감지 성능을 향상시키는 새로운 프레임워크 ‘TransBridge’를 제안합니다. 감지 네트워크와 점군 완성 네트워크를 공유 인코더로 공동 학습하며, 트랜스포머 기반의 업샘플링 블록을 통해 두 네트워크의 특징을 융합합니다. 또한, 동적-정적 재구성(DSRecon) 모듈로 고밀도 점군 데이터를 생성하여 완성 네트워크의 학습을 돕습니다. nuScenes와 Waymo 데이터셋에서의 실험을 통해 기존 다양한 감지 방법의 성능을 일관되게 향상시켰음을 입증했습니다.
상세 분석
본 논문이 해결하고자 하는 근본적인 문제는 LiDAR 데이터의 고유한 희소성과 비균일성으로 인해 발생하는 ‘투명 복셀’과 ‘보이지 않는 복셀’의 구분 난제입니다. 기존 방법들은 점군을 밀집화하여 이 문제를 완화하려 했으나, 이는 추론 시 계산 비용을 크게 증가시키는 단점이 있었습니다. TransBridge의 핵심 혁신은 감지와 완성이라는 상이한 두 태스크를 단일 네트워크 내에서 공동 학습하면서도 추론 비용을 유지하는 ‘공유 인코더’ 설계에 있습니다. 감지 네트워크는 피라미드 구조를, 완성 네트워크는 피라미드와 역피라미드 구조를 가지지만, 둘은 동일한 인코더를 공유합니다. 이를 통해 완성 태스크의 추가적인 감독 신호가 특징 맵을 명확하게 만들어 감지 성능을 향상시킵니다.
기술적 핵심은 두 네트워크 간의 특징 차이를 해소하는 ‘TransBridge 블록’입니다. 이 블록은 업샘플링 브릿지(UB)와 해석 브릿지(IB)로 구성된 트랜스포머 기반 디코더입니다. UB는 공간 해상도를 높이는 역할을 하고, IB는 감지 네트워크의 의미론적 특징을 완성 네트워크가 이해할 수 있는 형상 중심 특징으로 변환하는 매개체 역할을 합니다. 또한, ‘희소성 제어 모듈(SCM)‘은 계산 효율성을 위해 투명 복셀을 필터링하여 실제 의미 있는 복셀에만 집중하도록 합니다.
또 다른 중요한 기여는 고품질의 완성 학습용 지상 진실 데이터를 생성하는 ‘동적-정적 재구성(DSRecon)’ 모듈입니다. 기존의 단순 연속 프레임 합성 방법은 움직이는 물체에 ‘꼬리 자국’ 노이즈를 생성합니다. DSRecon은 동적 전경 객체와 정적 배경을 분리하여 정렬한 후, 표면 재구성 기법(NKSR)을 적용하여 깨끗하고 밀도 높은 점군을 생성함으로써 이러한 문제를 해결합니다.
실험 결과는 프레임워크의 강력한 일반화 능력을 보여줍니다. 다양한 최신 감지기(CenterPoint, PV-RCNN 등)에 TransBridge를 통합했을 때, nuScenes 데이터셋에서 평균 평균 정밀도(mAP)가 0.7에서 1.5 포인트까지, 2단계 감지 프레임워크에서는 최대 5.78 포인트까지 향상되었습니다. 이는 제안 방법이 기본 감지기의 성능을 추가 계산 비용 없이 안정적으로 끌어올릴 수 있는 ‘성능 부스터’로서의 가치를 입증합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기