멀티턴 인터랙티브 강화학습 기반 자율주행 플래너 MTDrive
초록
MTDrive는 멀티모달 대형 언어 모델(MLLM)을 다중 턴 상호작용 루프에 결합한 강화학습 프레임워크로, 각 턴마다 환경 피드백을 받아 경로를 점진적으로 개선한다. 새로운 알고리즘인 mtGRPO는 턴별 상대 이점을 계산해 보상 희소성을 완화하고, 고해상도 이미지와 다중 턴 시퀀스 전송 비용을 최적화해 학습 효율을 2.5배 높인다. NAVSIM 벤치마크에서 기존 방법을 크게 앞서는 성능을 보이며, 실제 차량 수준의 안전·편안함 지표에서도 우수함을 입증한다.
상세 분석
본 논문은 자율주행 트래젝터리 플래닝에 MLLM과 RL을 결합한 최초의 멀티턴 프레임워크인 MTDrive를 제안한다. 기존 연구들은 단일턴 추론에 머물러 복잡한 상황에서의 반복적인 경로 수정이 어려웠으나, MTDrive는 매 턴마다 전방 이미지, 차량 상태, 내비게이션 명령, 이전 피드백을 입력으로 받아 새로운 트래젝터리를 생성하고, PDM 에이전트를 통해 충돌, 주행 가능 영역 위반, TTC(Time‑to‑Collision) 등 안전 지표를 텍스트 형태로 반환한다. 이러한 텍스트 피드백은 다음 턴의 프롬프트에 직접 삽입돼 모델이 스스로 오류를 인식하고 교정하도록 만든다.
핵심 알고리즘인 mtGRPO는 기존 GRPO가 전체 시퀀스에 하나의 보상만 할당해 발생하는 보상 희소성 문제를 턴별 보상 rᵢ,ⱼ을 정의하고, 각 턴의 토큰에 해당 보상을 매핑함으로써 해결한다. 보상은 PDM 점수와 포맷 점수(출력 형식 유지) 를 가중합(wₚ=0.8, w_f=0.2)한 형태이며, 토큰‑레벨 상대 이점 ˜Aᵢ,ₜ 은 각 턴 내에서 표준화된 보상 차이를 이용해 계산된다. 이렇게 하면 어느 턴이 실제 성능 향상에 기여했는지를 명확히 구분할 수 있어 정책 업데이트가 더 안정적이고 효율적이다.
데이터 측면에서는 닫힌‑루프 시뮬레이터(NAVSIM)에서 수집한 인터랙티브 트래젝터리 이해 데이터셋을 구축한다. 단일턴, 멀티턴, PDM 이해용 QA 세 파트로 구성되며, 멀티턴 데이터는 부트스트랩 방식으로 기존 모델이 생성한 트래젝터리를 PDM 피드백과 결합해 차례로 확장한다. 이는 모델이 실제 피드백 루프를 경험하도록 설계된 점이 혁신적이다.
시스템 구현에서는 veRL 기반의 멀티모달 RL 파이프라인에 이미지 압축, 배치‑레벨 캐시, 토큰‑레벨 스트리밍 등 2가지 최적화를 적용해 고해상도 이미지와 긴 턴 시퀀스에 따른 데이터 전송 병목을 2.5배 가속한다.
실험 결과, MTDrive는 NAVSIM 베치마크에서 PDMS 점수 96.2(특권 인식 입력)와 91.1(실제 센서 입력) 를 기록, 기존 최첨단 방법들을 크게 앞선다. 특히 장거리 차선 변경, 급정거, 복잡 교차로 등 ‘롱테일’ 시나리오에서 멀티턴 피드백을 통한 경로 수정이 눈에 띄게 안전성을 높였다. 전체적인 평가에서 정책 안정성, 학습 수렴 속도, 그리고 시스템 효율성 모두 개선된 것으로 보고된다.
요약하면, MTDrive는 (1) 멀티턴 인터랙션을 통한 경로 재구성 메커니즘, (2) 턴‑레벨 상대 이점 기반 mtGRPO 알고리즘, (3) 대규모 멀티모달 데이터와 시스템 최적화를 결합해 자율주행 분야에서 LLM‑RL 융합의 새로운 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기