협력적 차선 변경을 위한 딥 강화학습
초록
본 논문은 자율주행 차량의 차선 변경 전략을 딥 강화학습으로 학습시키되, 개별 차량의 이동 효율이 아니라 전체 교통 흐름의 효율성을 보상으로 설계한다. 협력적 보상 구조가 경쟁적 보상보다 더 조화롭고 효율적인 교통 시스템을 만든다는 실험 결과를 제시한다.
상세 분석
본 연구는 자율주행 차량이 복잡한 고속도로 환경에서 차선 변경을 수행할 때, 전통적인 개인 중심 보상 설계가 전체 교통 효율을 저해한다는 점을 지적한다. 이를 해결하기 위해 저자들은 전체 네트워크의 평균 속도, 차량 간 거리 유지, 충돌 회피 등을 종합한 ‘전체 교통 효율 보상’ 함수를 정의하였다. 강화학습 에이전트는 이 보상을 최대화하도록 학습되며, 이를 위해 Deep Q‑Network(DQN)와 Actor‑Critic 기반의 Proximal Policy Optimization(PPO) 두 가지 알고리즘을 비교 실험하였다.
시뮬레이션 환경은 SUMO 기반의 고속도로 시나리오로, 차량 밀도, 초기 속도 분포, 목표 목적지 등이 다양하게 설정되었다. 각 차량은 관측 공간으로 전방·후방·좌·우 차선의 거리·속도 정보를 포함한 8차원 벡터를 사용하고, 행동 공간은 ‘유지’, ‘좌측 차선 변경’, ‘우측 차선 변경’의 세 가지 이산 행동으로 제한하였다.
핵심 실험에서는 (1) 개인 효율 보상(자신의 평균 속도와 충돌 회피만 고려)과 (2) 협력 효율 보상(전체 평균 속도와 교통 흐름을 포함) 두 가지 보상 체계를 비교하였다. 결과는 협력 보상 하에서 평균 차량 속도가 12 % 상승하고, 충돌 발생률이 35 % 감소했으며, 교통 혼잡 구간이 현저히 줄어드는 등 전반적인 교통 성능이 크게 향상됨을 보여준다. 또한, 협력 보상은 학습 안정성 측면에서도 더 빠른 수렴과 낮은 변동성을 보였다.
알고리즘적 관점에서 보면, PPO 기반 정책이 DQN보다 연속적인 정책 업데이트와 샘플 효율성에서 우수했으며, 특히 협력 보상 구조와 결합될 때 정책의 일반화 능력이 크게 향상되었다. 네트워크 구조는 2개의 은닉층(256, 128 유닛)과 ReLU 활성화를 사용했으며, 보상 스케일링을 위해 정규화 기법을 적용하였다.
이 논문은 ‘협력적 보상 설계’가 자율주행 시스템에서 사회적 최적화를 달성하는 핵심 열쇠임을 실증적으로 입증한다. 향후 연구에서는 다중 에이전트 간 통신 프로토콜, 실시간 교통 신호와의 연계, 그리고 실제 도로 테스트베드 적용을 통해 이론적 결과를 현장에 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기