드라이브 마이 웨이 개인 맞춤형 운전 선호 정렬

Drive My Way(DMW)는 운전자의 장기적인 운전 습관을 임베딩으로 학습하고, 실시간 자연어 지시와 결합해 개인화된 행동을 생성하는 Vision‑Language‑Action 모델이다. 30명의 실제 운전자를 대상으로 만든 PDD 데이터셋을 활용해 사용자 임베딩을 학습하고, GRPO 기반 강화학습으로 스타일별 잔차 제어를 추가한다. Bench2Drive 폐쇄‑루프 실험과 사용자 연구에서 DMW는 안전성을 유지하면서 운전 스타일을 효과적으로…

저자: Zehao Wang, Huaide Jiang, Shuaiwu Dong

드라이브 마이 웨이 개인 맞춤형 운전 선호 정렬
본 논문은 “Drive My Way”(DMW)라는 새로운 Vision‑Language‑Action(VLA) 프레임워크를 제안한다. 기존 엔드‑투‑엔드 자율주행 모델은 일반적인 안전·효율 목표에 최적화돼 있어 운전자의 개인적 선호와 실시간 자연어 지시를 반영하지 못한다. DMW는 두 축의 개인화를 동시에 달성한다. 첫 번째 축은 장기적인 운전 습관을 반영하는 사용자 임베딩이다. 이를 위해 저자들은 30명의 실제 운전자를 대상으로 20개의 복합 시나리오(병합, 추월, 교차로, 보행자 횡단 등)를 포함하는 Personalized Driving Dataset(PDD)을 구축했다. PDD는 전방 RGB 이미지, 차량 상태, 주변 객체, 내비게이션 목표, 그리고 운전자 프로필(연령, 운전 경력, 선호도 등)을 모두 기록한다. 프로필 텍스트는 DeBERTaV3 기반 텍스트 인코더를 통해 임베딩 zₚ로 변환하고, 과거 주행 시퀀스는 멀티‑헤드 셀프‑어텐션을 적용한 트랙터 인코더를 통해 행동 임베딩 z_b를 만든다. InfoNCE 대조 학습을 통해 동일 운전자의 zₚ와 z_b를 가깝게, 서로 다른 운전자는 멀게 배치함으로써 의미 있는 잠재 공간 Z를 형성한다. 두 번째 축은 실시간 자연어 지시와 결합된 스타일 적응이다. DMW는 SimLingo를 백본으로 사용한다. SimLingo는 InternVL2‑1B 비전 인코더와 Qwen2‑0.5B 언어 모델을 결합해 이미지와 텍스트를 동시에 처리한다. 입력으로는 전방 카메라 이미지 Iₜ, 차량 상태 qₜ, 내비게이션 목표 gₜ, 사용자 임베딩 zₚ, 그리고 현재 자연어 지시 Iₜ가 들어간다. 모델은 시계열 및 기하학적 웨이포인트를 예측하고, 이를 기반으로 기본 throttle·brake·steer 신호 a_base를 만든다. 개인화된 행동을 위해 DMW는 GRPO 기반 강화학습과 잔차 디코더를 도입한다. 잔차 디코더는 학습 가능한 쿼리 토큰을 언어 모델에 삽입하고, MLP와 카테고리형 헤드를 통해 속도와 조향에 대한 미세 조정(잔차 a_Δ)을 생성한다. 최종 제어는 a = a_base + a_Δ이며, PID 컨트롤러를 통해 차량에 적용된다. 이 구조는 안전한 기본 계획을 유지하면서, 사용자 임베딩과 실시간 지시에 따라 다양한 스타일을 표현한다. 실험에서는 Bench2Drive 폐쇄‑루프 벤치마크와 사용자 연구를 수행했다. Bench2Drive 실험에서 DMW는 스타일 지시 적응도, 안전 지표(충돌률), 편안함(가속·제동 진동) 모두에서 기존 스타일‑조건화 모델과 LLM 기반 접근법을 능가했다. 사용자 연구에서는 30명의 참가자에게 자신의 운전 스타일과 DMW가 생성한 주행을 비교하도록 했으며, 대다수가 DMW의 주행이 자신과 일치한다는 높은 인지 점수를 주었다. 이는 장기 임베딩과 실시간 지시를 동시에 활용한 개인화가 실제 운전 경험과 잘 맞는다는 증거다. 마지막으로, 저자들은 데이터와 코드를 공개함으로써 향후 연구자들이 개인화된 자율주행, 인간‑차량 인터랙션, 그리고 멀티모달 기반 정책 학습을 확장할 수 있는 기반을 제공한다. DMW는 개인 맞춤형 운전 경험을 제공함으로써 사용자 신뢰와 만족도를 높이고, 인간 중심 자율주행 시스템의 새로운 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기