계층형 네트워크 신호 및 차량 궤적 최적화 프레임워크

본 논문은 인간 운전 차량과 연결·자동화 차량이 혼재하는 도시 교차로 네트워크에서, 계층형 구조를 이용해 교통 신호 제어와 차량의 에코‑접근·출발(EAD) 전략을 동시에 최적화한다. 다중 에이전트 강화학습(Value Decomposition Network) 기반의 신호 제어와, SPaT 예측을 활용한 머신러닝 궤적 계획 알고리즘(MLTPA)을 결합해, 60 % CAV 비율에서 평균 속도 7.67 %, 연료소비 10.23 %, 정체시간 45.83…

저자: Ziyan Zhang, Changxin Wan, Peng Hao

계층형 네트워크 신호 및 차량 궤적 최적화 프레임워크
본 논문은 급증하는 도시 교통 수요와 에너지 소비 문제를 해결하고자, 인간 운전 차량(HV)과 연결·자동화 차량(CAV)이 혼재하는 대규모 교차로 네트워크에서 신호 제어와 차량 궤적을 동시에 최적화하는 새로운 프레임워크인 HONEST‑CAV를 제안한다. 기존 연구는 신호 제어와 차량 궤적을 별도 문제로 다루어 상호 협조의 잠재력을 충분히 활용하지 못했으며, 특히 혼합 교통 상황에서의 확장성 문제가 있었다. 이를 극복하기 위해 저자들은 두 단계의 계층형 구조를 설계하였다. 첫 번째 계층은 교차로 수준의 신호 제어이다. 각 교차로를 독립적인 에이전트로 설정하고, 중앙집중 학습·분산 실행(CTDE) 방식을 채택한다. 에이전트는 144차원 상태벡터(4방향·3차선·3시간 가중 평균·4가지 교통 특성)를 관측하고, 사이클 길이 변화 비율과 네 개 위상의 녹색 비율을 포함하는 5차원 연속 행동을 선택한다. 전역 보상은 사이클당 통과 차량 수와 대기열 길이의 가중합으로 정의되며, 이는 흐름 증진과 정체 감소를 동시에 목표한다. 보상 공유를 위해 Value Decomposition Network(VDN)를 적용해 개별 Q‑값을 합산, 전역 Q‑값을 근사한다. 학습 효율을 높이기 위해 다중 프로세스를 이용한 비동기식 시뮬레이션을 도입했으며, 공유 정책·가치 네트워크를 통해 교차로 간 협조를 촉진한다. 두 번째 계층은 CAV의 에코‑접근·출발(EAD) 전략이다. 기존 최적화 기반 궤적 계획(GBTPA)은 에너지 최소화를 달성하지만 계산 비용이 높아 실시간 적용이 어렵다. 저자는 GBTPA에서 생성한 최적 궤적을 학습한 머신러닝 기반 궤적 계획 알고리즘(MLTPA)을 사용한다. MLTPA는 실시간으로 차량의 속도 프로파일을 제공하며, 이를 위해 정확한 신호 위상·시간(SPaT) 예측이 필요하다. 저자는 정책 기반 예측(RPhase)과 과거 패턴(PPhase)을 시간 가중 평균(β)으로 결합한 하이브리드 예측 방식을 제안한다. 이 방식은 현재 사이클이 진행 중일 때도 충분히 정확한 녹색 통과 구간을 제공해, CAV가 에너지 효율적인 가속·감속을 수행하도록 돕는다. 실험은 캘리포니아 리버사이드에 위치한 실제 4×4 교차로 네트워크를 모델링한 시뮬레이션 환경에서 수행되었다. CAV 비율을 0 %에서 100 %까지 변화시키고, 전기차(EV)와 내연기관 차량(ICEV) 각각에 대해 별도 시나리오를 설정했다. 비교 대상은 전통적인 Webster 신호 제어와 규칙 기반 EAD 전략이다. 결과는 다음과 같다. (1) MARL 기반 신호 제어는 평균 속도, 연료 소비, 정체 시간 모두에서 Webster 대비 5 %~10 % 수준의 개선을 보였다. (2) MLTPA와 SPaT 예측을 결합한 EAD 전략은 추가로 연료 소비를 3 %~5 % 절감하고, 정체 시간을 10 %~15 % 감소시켰다. (3) CAV 비율이 60 %일 때 전체 시스템은 평균 속도 7.67 %, 연료 소비 10.23 %, 정체 시간 45.83 % 개선을 달성했다. 전기차 시나리오에서는 에너지 절감 효과가 더욱 두드러졌다. 논문의 주요 기여는 다음과 같다. 첫째, 네트워크 수준에서 신호 제어와 차량 궤적을 동시에 최적화하는 확장 가능한 계층형 프레임워크를 제시하였다. 둘째, VDN 기반 다중 에이전트 강화학습에 비동기식 다중 프로세싱을 도입해 학습 속도를 크게 향상시켰다. 셋째, 정책 기반과 히스토리 기반을 결합한 SPaT 예측 알고리즘을 개발해 동적 신호 환경에서도 정확한 녹색 구간을 제공하였다. 넷째, 다양한 CAV 비율과 전력계통(ICEV·EV)에서의 성능을 체계적으로 분석함으로써 자동화와 전동화가 교통 효율에 미치는 영향을 정량화하였다. 한계점으로는 시뮬레이션 기반 검증에 머물러 실제 V2I 통신 지연, 센서 오차, 인간 운전자의 비예측 행동 등이 고려되지 않았으며, 보상 설계가 특정 도시 환경에 최적화되어 있어 다른 도시로의 일반화에 추가 조정이 필요하다. 향후 연구는 실제 도로 테스트베드 구축, 실시간 V2I 프로토콜 적용, 다중 목표(배출가스, 보행자 안전) 강화학습 확장, 그리고 정책 전이 학습을 통한 다른 도시로의 빠른 적용을 목표한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기