협력적 차량 계획 가속화를 위한 학습 휴리스틱과 몬테카를로 트리 탐색

** 본 논문은 도시 교통 환경에서 다중 자동 차량이 서로의 행동을 고려해 협력적으로 경로를 계획해야 하는 문제를 다룬다. 기존의 협력적 플래닝 방법은 행동 간 상호 의존성을 반영하지만, 에이전트 수가 늘어나면 상태·행동 공간이 급격히 확대돼 탐색 비용이 비현실적으로 커진다. 이를 해결하기 위해 저자들은 **학습 기반 휴리스틱**과 **몬테카를로 트리 탐색(MCTS)** 을 결합한 새로운 프레임워크를 제안한다. ### 1. 문제 정의 및 배경 협력적 플래닝은 다중 에이전트가 동시에 최적의 행동을 선택해 **Nash equilibrium**에 도달하는 것을 목표로 한다. 기존 연구에서는 단일 에이전트 플래닝을 위해 문제를 차원 축소하거나, 사전 정의된 행동 집합을 사용해 탐색을 단순화했지만, 이는 협력이 필요한 상황을 놓치게 만든다. 인간 운전자는 직관적으로 유망한 행동을 선택해 탐색을 제한하듯, 기계 학습 모델도 비슷한 역할을 할 수 있다. AlphaGo와 같은 사례에서 보듯, **정책 네트워크**가 MCTS의 사전 확률을 제공함으로써 탐색 효율이 크게 향상된다. ### 2. 학습 휴리스틱 설계 저자들은 **Mixture Density Network (MDN)** 를 기반으로 한 **Hybrid Model**을 설계한다. 입력은 두 종류로 나뉜다. - **시각 피처**: 128×256 픽셀의 의미론적 지도(차선, 도로, 정적·동적 장애물 등)이며, 각 픽셀은 정수 클래스로 인코딩된다. - **스칼라 피처**: 최대 8대 차량에 대해 8개의 시간 단계(위치, 속도, 가속도, 헤딩, 목표 속도·차선 등)를 포함한다. 시각 피처는 2개의 컨볼루션 레이어(con_v1, con_v2)와 전결합 레이어(fc3)를 거쳐 고차원 특징으로 변환된다. 스칼라 피처는 두 개의 전결합 레이어(fc1, fc2)를 통해 처리된다. 두 스트림은 fc4와 fc5에서 결합된 뒤, 최종적으로 **GMM 파라미터**를 출력한다. 파라미터는 혼합계수 φ (Softmax), 평균 µ (Identity), 분산 σ² (비음수 ELU)로 구성된다. GMM은 2~3개의 혼합 성분을 사용해 다중 모드 행동(예: 좌·우 회피, 앞·뒤 합류)을 표현한다. ### 3. MCTS와의 통합 기존 MCTS는 **선택(Selection)** → **확장(Expansion)** → **시뮬레이션(Rollout)** → **역전파(Backpropagation)** 의 네 단계로 구성된다. 여기서 확장 단계에서 새로운 행동을 샘플링할 때, 저자들은 MDN이 제공하는 GMM에서 액션을 추출한다. 이렇게 하면 탐색 트리가 **유망한 행동 영역**에 집중되며, 무작위 샘플링에 비해 탐색 효율이 크게 증가한다. 또한, MCTS는 제약(충돌 회피, 속도 제한 등)을 직접 적용할 수 있어, 학습 모델이 놓칠 수 있는 안전성을 보완한다. ### 4. 실험 설정 및 결과 실험은 저자들의 이전 연구

협력적 차량 계획 가속화를 위한 학습 휴리스틱과 몬테카를로 트리 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기