Mamba와 Transformer의 시너지: 적응형 스파스 보셀 정렬을 통한 초고속 LiDAR 3D 탐지

Mamba와 Transformer의 시너지: 적응형 스파스 보셀 정렬을 통한 초고속 LiDAR 3D 탐지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고성능 Transformer 기반 LiDAR 3D 탐지기의 전역 컨텍스트 학습 능력을 경량화된 Mamba 모델에 전이하는 교차‑모델 지식 증류 프레임워크(FASD)를 제안한다. 동적 보셀 그룹화·스파스 어댑터·Span‑KD 손실을 활용해 스파스 보셀을 정렬하고, 교사‑학생 간 잠재공간 및 로그잇 공간을 동시에 정규화한다. Waymo와 nuScenes에서 기존 베이스라인 대비 1‑2% AP 향상과 FLOPs 4배 감소, 실시간 추론 속도를 달성한다.

상세 분석

FASD는 크게 네 가지 핵심 모듈로 구성된다. 첫째, 동적 보셀 그룹(Dynamic Voxel Group) 은 기존 DSVT 방식에서 영감을 받아 입력 포인트 클라우드를 G개의 그룹으로 클러스터링하고, 각 그룹을 S개의 연속 시퀀스로 직렬화한다. 이때 시퀀스 길이를 길게 설정함으로써 Transformer 교사가 학습한 장거리 의존성을 Mamba 학생에게 충분히 전달한다. 둘째, 적응형 어텐션(Adaptive Attention) 은 교사 Transformer에 도입된 스케일‑어댑티브 메커니즘으로, 쿼리 간 유클리드 거리 D와 학습 가능한 수용 필드 γ를 결합해 Softmax 가중치를 조정한다. γ가 클수록 먼 토큰에 대한 어텐션이 억제되어 지역 집중도가 높아지고, 헤드마다 서로 다른 γ를 사용해 다중 스케일 정보를 동시에 추출한다. 이는 기존 전역 어텐션의 O(N²) 복잡도를 유지하면서도 지역‑전역 정보를 효율적으로 융합한다. 셋째, 정렬 어댑터(Alignment Adapter) 는 학생 Mamba와 교사 Transformer 사이의 스파스 보셀 좌표 불일치를 해결한다. 좌표 ξ(V)=10000·Vₓ+Vᵧ 로 2D 위치를 고차원 인덱스로 매핑하고, 교사·학생 모델이 공유하는 V_com을 추출한다. 이후 ψ 함수를 통해 공통 보셀 특징만을 선택적으로 전달함으로써, 불필요한 잡음과 좌표 변형에 의한 손실을 최소화한다. 넷째, Span‑KD 손실 은 로그잇 공간에서의 확률 분포 정합을 강화한다. 기존 KD가 주로 클래스별 소프트 라벨에 집중하는 반면, Span‑KD는 토큰 시퀀스 전체에 걸친 연속적인 예측 구간(span)을 고려해 교사와 학생의 출력 로그잇을 정규화한다. 이는 특히 3D 객체 검출에서 물체 경계와 회전 각도와 같은 연속형 파라미터를 학습할 때 효과적이다.
학습 단계에서는 교사 모델을 고정하고, 학생 모델에 두 종류의 손실(Latent Feature KD + Span‑KD)을 동시에 적용한다. 또한, voxel diffusion 모듈을 통해 전경 보셀을 강조하고, sparse head와 함께 다중 스케일 피쳐를 손실에 포함시켜 전반적인 검출 성능을 끌어올린다. 실험 결과, Waymo Open Dataset에서 L1 mAP가 85.0% → 86.2%로, nuScenes NDS가 71.5% → 72.8%로 상승했으며, FLOPs는 기존 Transformer 기반 모델 대비 약 4배 감소했다. 추론 시간도 30 ms 이하로 실시간 운용이 가능해졌다.
한계점으로는 현재 교사 모델이 고정된 상태에서만 증류가 진행되므로, 교사‑학생 공동 최적화(Joint Training) 혹은 교사 모델 경량화와 같은 추가 연구가 필요하다. 또한, 어댑터가 좌표 매핑에 의존하기 때문에 비정형 환경(예: 비정규 격자)에서는 매핑 정확도가 떨어질 가능성이 있다. 향후 연구에서는 좌표‑불변 어댑터와 멀티‑모달(이미지·라이다) 교차 증류를 결합해 더욱 일반화된 프레임워크를 구축할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기