하이플랜: 불확실성 하에서 안전한 자율주행을 위한 혼합 학습 기반 계획
초록
HyPlan은 다중 에이전트 행동 예측, PPO 기반 심층 강화학습, 그리고 신뢰도 기반 수직 가지치기를 결합한 온라인 POMDP 플래너이다. CARLA‑CTS2 벤치마크에서 기존 POMDP 기반 플래너보다 계획 속도가 크게 향상되었으며, 보행자와의 충돌 회피 측면에서 모든 비교 대상보다 안전성을 확보했다.
상세 분석
본 논문은 자율주행 차량이 부분적으로 관측 가능한 복잡한 교통 환경에서 목표 지점까지 최단 시간으로 이동하면서 충돌을 피하는 ‘Collision‑Free Navigation (CFN)’ 문제를 POMDP(Partially Observable Markov Decision Process) 형태로 정의한다. 기존 연구는 순수 딥러닝, 규칙 기반, 혹은 전통적인 POMDP 플래너에 의존했으나, 각각 실행 시간·안전성 사이에 트레이드오프가 존재한다. HyPlan은 이러한 한계를 극복하기 위해 네 가지 핵심 모듈을 통합한다. 첫째, Multi‑Agent Behavior Predictor(MABP)는 주변 차량·보행자의 궤적을 예측해 관측 불확실성을 보완한다. 둘째, Weighted Hybrid A* 기반 PathPlanner는 예측된 궤적을 비용맵에 삽입해 최단·안전 경로를 생성하고, 이를 통해 스티어링 각을 즉시 결정한다. 셋째, NavPPO라는 PPO 기반 심층 강화학습 네트워크는 ‘의도 이미지(intention image)’와 비시각적 상태 특징을 입력으로 받아 belief state에 대한 가치 추정 Vθ(b)를 제공한다. 이 네트워크는 Actor‑Critic 구조와 LSTM을 활용해 시간적 의존성을 모델링하고, 학습 단계에서 IS‑DESPOT* 플래너의 정책을 모방하도록 설계되었다. 넷째, IS‑DESPOT* 플래너는 전통적인 DESPOT의 근사적 온라인 POMDP 탐색에 신뢰도 기반 수직 가지치기(vertical pruning)를 도입한다. 구체적으로, NavPPO에 Monte‑Carlo dropout을 적용해 다중 전방 패스를 수행하고, 평균 μ와 분산 σ²를 추정한다. CRUDE(Confidence‑aware Calibration) 기법으로 μ와 σ²를 보정해 신뢰도 φ를 얻고, 이를 하한 L(b) = (1‑φ)Ltr(b) + φU(b) 에 가중합으로 반영한다. 높은 신뢰도를 가진 노드에서는 상한‑하한 차이가 급격히 감소하므로 탐색이 조기에 종료되어 계획 시간이 크게 단축된다. 실험에서는 F=10개의 dropout 샘플을 사용했으며, 신뢰도 보정 파라미터 ζ는 별도 캘리브레이션 씬에서 추정하였다. 결과적으로 HyPlan은 기존 온라인 POMDP 플래너 대비 평균 3‑5배 빠른 계획 시간을 기록했으며, 충돌 및 근접 위험 지표에서도 모든 베이스라인을 상회했다. 특히, 안전성을 희생하지 않고도 수직 가지치기로 인한 탐색 깊이 감소가 가능한 점이 큰 강점이다. 다만, 보행자 행동을 직선 이동으로 단순화한 점, 그리고 시뮬레이션 기반 평가에 국한된 점은 실제 도로 적용 시 추가 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기