NaviDriveVLM: 고성능 추론과 저비용 모션 플래닝을 분리한 자율주행 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 비전‑언어 모델(VLM)을 “Navigator”로 고정하고, 경량 VLM을 “Driver”로 fine‑tuning하여 고수준 의미 추론과 정밀한 궤적 예측을 명확히 분리한다. nuScenes 데이터셋에서 제시된 실험 결과는 단일 대형 VLM을 그대로 fine‑tuning한 경우보다 훨씬 낮은 L2 오류를 기록하며, 추론 결과를 중간 인터프리터로 활용함으로써 해석 가능성도 확보한다.

상세 분석

NaviDriveVLM은 기존 VLM 기반 자율주행 연구가 직면한 “추론‑제어 트레이드오프”를 구조적으로 해결한다는 점에서 의미가 크다. 대규모 VLM(예: Qwen3‑VL‑8B)은 풍부한 사전학습 지식으로 복잡한 교통 상황을 자연어로 설명할 수 있지만, 파라미터 수가 방대해 실제 주행 제어에 맞게 미세조정하는 비용이 prohibitive하다. 반면 소형 VLM은 파라미터가 적어 빠르게 fine‑tuning이 가능하지만, 고수준 의미 이해가 약해 위험 상황에 대한 적절한 판단을 제공하지 못한다.

논문은 이 두 모델을 “Navigator”(고정)와 “Driver”(경량, fine‑tune)로 명확히 구분한다. Navigator는 멀티‑뷰 이미지, 차량 상태, 고수준 명령(예: Hard Left, Decelerate 등)을 입력받아 장면 설명, 추천 행동, 추론 근거라는 텍스트 토큰을 생성한다. 이 토큰은 의미적 정보를 압축한 인터프리터 역할을 하며, Driver에게 직접 전달된다. Driver는 이미지 토큰, 차량 상태 토큰, 그리고 Navigator가 만든 추론 토큰을 결합해 미래 궤적(waypoint) 시퀀스를 autoregressive 방식으로 생성한다.

핵심 기술적 포인트는 다음과 같다.

Frozen Large‑Scale VLM: Navigator를 frozen 상태로 유지함으로써 대규모 모델의 추론 능력을 손실 없이 보존하고, 학습 비용을 크게 절감한다.
경량 Driver의 SFT: Driver는 Qwen3‑VL‑2B(또는 8B에 LoRA 적용) 기반으로, 기존 VLM 대비 파라미터가 적고, waypoint 예측을 위한 supervised fine‑tuning만 수행한다. 손실 함수는 일반적인 negative log‑likelihood이며, 과거 waypoint와 추론 토큰을 조건으로 사용한다.
명시적 중간 표현: Navigator가 만든 텍스트 토큰을 그대로 Driver에 입력함으로써 “추론 → 제어” 흐름이 투명해진다. 이는 기존 연구에서 추론을 단순 보조 신호로만 활용하던 것과 달리, 실제 제어 입력으로 활용한다는 점에서 해석 가능성을 크게 향상시킨다.
데이터 파이프라인: nuScenes‑Reason 데이터셋을 구축해 8초 길이의 시퀀스마다 Navigator가 생성한 추론을 미리 저장한다. 이렇게 하면 Driver 학습 시 Navigator 호출 비용을 제거해 효율성을 높인다.

실험 결과는 세 가지 관점에서 강점을 입증한다. (1) L2 오류 측면에서, NaviDriveVLM(Qwen3‑VL‑2B) 은 6초 예측 구간에서 평균 1.285 m를 기록, 동일 모델을 단일 구조로 fine‑tuning한 경우(≈1.55 m)보다 20% 이상 개선된다. (2) 정량적 비교에서 OpenEMMA, UniAD, VAD‑Base 등 최신 베이스라인을 모두 앞선다. (3) 정성적 사례에서는 신호등, 보행자, 정지 표지판 등 복잡한 상황에서 Navigator가 정확한 장면 설명을 제공하고, Driver가 이를 기반으로 정확한 궤적을 생성함을 보여준다.

또한, ablation study에서 이미지, 차량 상태, 명령어만 사용했을 때보다 추론 토큰을 포함했을 때 L2 오류가 평균 0.07 m 감소하는 등, 의미 추론이 실제 제어 성능에 기여함을 실증한다.

한계점으로는 현재 Navigator가 고정돼 있기 때문에 새로운 도메인(예: 날씨 변화, 새로운 교통 규칙)에는 추가 fine‑tuning이 필요할 수 있다. 또한, 추론 텍스트가 길어질 경우 토큰 제한에 걸릴 위험이 있어, 효율적인 요약 기법이 향후 연구 과제로 남는다.

전반적으로, NaviDriveVLM은 대규모 VLM의 풍부한 사전 지식을 손실 없이 활용하면서, 경량 제어 모듈을 효율적으로 학습할 수 있는 설계 패턴을 제시한다. 이는 자율주행 시스템에서 해석 가능성과 실시간 성능을 동시에 만족시키려는 연구 흐름에 중요한 이정표가 될 것으로 기대된다.

NaviDriveVLM: 고성능 추론과 저비용 모션 플래닝을 분리한 자율주행 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기