안전한 다중 에이전트 강화학습을 통한 자율주행 전략

본 논문은 자율주행 차량이 복잡한 도시 환경에서 다른 차량·보행자와 상호작용하며 안전하고 효율적인 운전 정책을 학습하는 문제를 다룬다. 서론에서는 현재 자율주행 시스템이 인간 운전자의 협상·양보·합류·좌·우회전 등 다양한 상황을 충분히 커버하지 못하고, 과도한 방어적 행동으로 교통 흐름을 저해한다는 점을 지적한다. 이러한 문제를 해결하기 위해 강화학습(RL)을 적용하려 하지만, 두 가지 핵심 난관이 있다. 첫째, 사고와 같은 극히 드문 위험 상황을 보상 함수에 반영하면 보상의 스케일이 커져 그래디언트 분산이 폭발한다. 둘째, 전통적인 마코프 결정 과정(MDP) 가정이 다른 에이전트의 비예측 가능한 행동 때문에 성립하지 않는다. 문제 정의 부분에서는 상태 공간 S를 차량 주변의 센서 기반 환경 모델(정적·동적 객체, 도로 표지, 신호 등)으로 정의하고, 행동 공간 A를 고수준 ‘Desire’(예: 가속, 차선 변경, 합류 의도)로 추상화한다. 정책 πθ는 파라미터 θ를 가진 딥 뉴럴 네트워크로 구현되며, 이 정책은 마코프 가정 없이도 REINFORCE 방식의 정책 그래디언트 추정이 가능함을 정리한다(정리 1). 다음으로, 그래디언트 분산을 감소시키기 위한 세 가지 접근법을 제시한다. 1) 베이스라인 차감: 기존 REINFORCE에서 사용되는 베이스라인을 비마코프 상황에서도 최적화된 형태로 일반화한다. 2) 정책 분해: 정책을 ‘Desire 정책’(학습 대상)과 ‘Trajectory Planner’(하드 제약 기반 비학습)로 분리한다. Planner는 충돌 회피, 법규 준수, 차량 동역학 제약 등을 만족하도록 설계돼, 안전에 관한 보상이 직접 학습에 영향을 주지 않게 만든다. 3) 옵션 그래프(Option Graph): 계층적 옵션 구조와 게이팅 메커니즘을 도입해 고수준 옵션 선택이 저수준 행동 시퀀스를 대체하도록 함으로써 유효 호라이즌 T를 크게 줄인다. 옵션 그래프는 각 노드가 특정 운전 의도(예: 차선 유지, 차선 변경, 합류)와 연결되고, 현재 상황에 맞는 옵션만 활성화되는 구조다. 이는 LSTM의 게이트와 유사하면서도 구조적 예측(structured prediction) 형태로 샘플 복잡도를 감소시킨다. 알고리즘 흐름은 다음과 같다. (i) 초기 정책을 인간 운전 데이터로부터 행동 복제(Imitation) 학습으로 초기화한다. (ii) 옵션 그래프를 통해 현재 상황에 맞는 고수준 옵션을 선택하고, 해당 옵션에 대응하는 Desire를 샘플링한다. (iii) Desire를 입력으로 하드 제약 플래너가 실제 차량 궤적을 생성한다. (iv) 생성된 궤적에 대한 보상을 계산하고, 베이스라인 차감과 옵션 게이팅을 적용해 정책 그래디언트를 추정한다. (v) SGD를 통해 정책 파라미터를 업데이트한다. 실험에서는 복잡한 ‘더블 머징(double merging)’ 시나리오를 시뮬레이션 환경에서 평가한다. 기존 Q‑learning 기반 플래너는 합류 시 충돌 위험이 높고, 학습이 수렴하기까지 많은 에피소드가 필요했다. 반면 제안된 방법은 옵션 그래프 덕분에 의사결정 단계가 크게 축소되어 학습 속도가 빨라졌으며, 하드 제약 플래너가 안전을 보장함으로써 충돌 발생률이 현저히 낮았다. 또한, 베이스라인 차감과 정책 분해를 통해 그래디언트 분산이 크게 감소했음이 실험적으로 확인되었다. 결론에서는 비마코프 다중 에이전트 환경에서도 안전을 보장하면서 강화학습을 적용할 수 있는 체계적 프레임워크를 제시했으며, 옵션 그래프와 정책‑플래너 분해가 실용적인 자율주행 시스템 설계에 중요한 설계 원칙이 될 수 있음을 강조한다. 향후 연구로는 실제 도로 데이터에 대한 검증, 옵션 그래프 자동 설계, 그리고 더 복잡한 교통 시나리오에 대한 확장 가능성을 제시한다.

안전한 다중 에이전트 강화학습을 통한 자율주행 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기