실시간 안전 자율주행을 위한 확산 행동 사전 기반 결정론적 궤적 계획 RAPiD
초록
RAPiD는 사전 학습된 확산 기반 궤적 플래너의 스코어 함수를 행동 사전으로 활용해, 샘플링 없이 결정론적 정책을 추출하는 프레임워크이다. Score‑Regularized Policy Optimization(SRPO)과 PDM 기반 안전 크리틱을 결합해 정책을 학습하고, nuPlan·interPlan 벤치마크에서 8배 빠른 추론 속도와 경쟁력 있는 안전·효율성을 달성한다.
상세 분석
본 논문은 확산 모델이 제공하는 풍부한 다중모달 행동 표현을 실시간 자율주행에 적용하기 위해 두 가지 핵심 기술을 제안한다. 첫째, 사전 학습된 DiffusionPlanner의 스코어 함수(∇ₐ log μ(a|s))를 직접 정책 그래디언트에 정규화 항으로 삽입하는 Score‑Regularized Policy Optimization(SRPO)을 도입한다. 기존의 오프라인 RL이 행동 정규화에 가중 회귀를 사용해 모드 커버링 문제에 취약한 반면, SRPO는 역 KL 기반 모드‑시킹 목표를 사용해 행동 분포와 정책 사이의 KL을 최소화하면서도 Q‑값을 최대화한다. 스코어 함수는 확산 모델의 노이즈 예측 네트워크 εψ(aₜ|s,t)를 t→0 한계에서 활용해 근사함으로써, 수백 단계의 반복 디노이징 과정을 완전히 생략한다. 이는 추론 시 1‑step 결정론적 행동을 가능하게 하여 실시간 요구사항을 충족한다.
둘째, 정책의 안전성을 확보하기 위해 Predictive Driver Model(PDM) 스코어러를 크리틱의 보상 함수로 채택한다. PDM은 충돌 시간(TTC), 차선 준수, 속도 제한, 승객 편안함 등 다양한 안전·편안함 지표를 종합해 점수를 부여한다. 논문은 이 스코어를 이용해 오프라인 리플레이 버퍼에 (s, a, r) 튜플을 저장하고, Implicit Q‑Learning(IQL) 기반 기대값 회귀를 통해 Q‑함수 L_Q(ϕ)를 학습한다. 이렇게 학습된 Q‑함수는 정책 업데이트 시 안전 보상을 직접 반영하므로, 단순히 nuPlan 메트릭을 최적화하는 기존 IL/오프라인 RL 대비 실제 폐쇄‑루프 주행에서 충돌 회피와 승차감이 크게 향상된다.
실험에서는 DiffusionPlanner(기준)와 비교해 비반응(non‑reactive) 시나리오(val14, test14, test14‑hard)에서 동일하거나 약간 상회하는 성능을 보이며, 추론 속도는 평균 8배 가속화된다. 반응형(reactive) 시나리오에서는 여전히 성능 격차가 존재함을 보고하고, 이는 확산 사전의 다중모달 정보를 완전히 보존하지 못한 정책 디스틸레이션 한계로 해석한다. 전체적으로 본 연구는 확산 기반 행동 사전을 활용한 정책 정규화 기법을 자율주행 궤적 계획에 최초 적용함으로써, 고성능·고안전·실시간 요구를 동시에 만족시키는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기