수요 변동에 강인한 단일 에이전트 강화학습 기반 지역 교통신호 제어

초록

본 논문은 다중 교차로를 하나의 중앙 에이전트가 제어하는 강화학습 프레임워크를 제안한다. 인접 행렬을 이용해 도로망 토폴로지와 실시간 대기열 정보를 통합하고, DreamerV3 월드 모델을 활용해 신호 위상 분할을 순차적으로 선택·조정한다. 보상은 대기열 감소에 초점을 맞추어 설계했으며, SUMO 시뮬레이션에서 10 %·20 %·30 % 수준의 OD 수요 변동에 대해 큐 길이를 크게 줄이고 변동에 대한 강인성을 입증하였다.

상세 요약

이 연구는 기존 다중 에이전트 기반 교통신호 제어가 안고 있던 협조 비용과 통신 지연 문제를 근본적으로 회피하기 위해 ‘단일 에이전트’ 접근을 선택했다. 중앙 집중형 에이전트는 전체 지역 네트워크를 하나의 마코프 결정 과정(MDP)으로 모델링하고, 교차로 간 상호작용을 인접 행렬 형태로 정형화한다. 이때 행렬의 각 원소는 도로 구간의 연결성뿐 아니라 현재 탐지된 차량 대기열(프로브 차량 데이터)과 기존 신호 위상 파라미터를 포함한다. 이러한 통합 표현은 공간적 상관관계를 보존하면서도 상태 차원을 과도하게 확대하지 않아 학습 효율성을 유지한다.

학습 코어는 DreamerV3라는 최신 모델 기반 강화학습(MBRL) 알고리즘을 채택한다. DreamerV3는 관측 데이터를 통해 잠재 상태(latent state)를 추정하고, 이 잠재 공간에서 행동 정책과 가치 함수를 학습한다. 특히, ‘world model’이 환경 역학을 예측함으로써 실제 시뮬레이션 호출을 최소화하고, 샘플 효율성을 크게 향상시킨다. 논문에서는 행동을 ‘교차로 선택 → 위상 분할 조정’이라는 두 단계 연속 결정으로 정의했으며, 이는 전통적인 신호 제어에서 피드백 제어 루프와 유사한 구조를 만든다.

보상 설계는 교통 공학에서 핵심인 대기열(큐) 감소에 직접 연결된다. 구체적으로, 각 시간 스텝에서 전체 네트워크의 대기열 길이 합에 음의 가중치를 부여하고, 급격한 큐 증가를 억제하기 위해 대기시간 지연 페널티를 추가한다. 이러한 설계는 에이전트가 단순히 신호 주기를 빠르게 바꾸는 것이 아니라, 교차로 간 흐름을 조율해 전체 시스템의 안정성을 높이는 행동을 학습하도록 유도한다.

실험은 SUMO 시뮬레이터에서 실제 도시 구역을 모델링하고, 10 %, 20 %, 30 % 수준의 OD(Origin‑Destination) 수요 변동을 인위적으로 주입한 ‘인퍼런스’ 시나리오에서 수행되었다. 결과는 기존 규칙 기반(예: SCATS, Fixed‑time) 및 최신 다중 에이전트 RL(예: DQN‑based)와 비교했을 때, 평균 대기열 길이가 15 %~35 % 감소하고, 변동에 대한 성능 편차가 현저히 낮았다. 이는 ‘학습 단계에서 변동을 고려하지 않았음에도 불구하고, world model이 환경 변화를 빠르게 추정하고 적응한다’는 점을 시사한다.

한계점으로는 학습 단계에서 수요 변동을 전혀 포함시키지 않았기 때문에, 극단적인 급증 상황에서는 여전히 성능 저하가 관찰될 수 있다. 또한, 중앙 집중형 구조는 대규모 도시 전체에 적용할 경우 계산 자원과 실시간 응답성에 제약이 있을 수 있다. 향후 연구에서는 stochastic OD 변동을 학습에 포함시키고, 계층적 지역 최적화와 비상 상황 대응 메커니즘을 도입해 실용성을 높이는 방향을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)