대규모 교차로 신호 제어를 위한 머신러닝: 교통 흐름 관점에서의 통찰

** 본 논문은 셀룰러 오토마톤 Rule 184 기반의 파라미터‑프리 교통 흐름 모델을 이용해, 토러스 형태의 균일 격자 네트워크에서 신호 제어 정책을 학습한다. 감독학습, 무작위 탐색, 심층 강화학습(DRL)을 비교한 결과, 감독학습은 두 개의 예시만으로도 기존 최장대기열 우선(LQF) 알고리즘을 능가했으며, DRL은 학습 시 평균 네트워크 점유율이 75 % 이하일 때만 효과적이었다. **

저자: Jorge A. Laval, Hao Zhou

대규모 교차로 신호 제어를 위한 머신러닝: 교통 흐름 관점에서의 통찰
** 본 논문은 대규모 신호 제어 문제를 교통 흐름 이론과 최신 머신러닝 기법을 결합해 탐구한다. 서론에서는 최근 DRL이 아케이드 게임, 바둑, 자율 주행 등에서 뛰어난 성과를 보였음에도 불구하고, 교통 신호 제어 분야에서는 주로 소규모 네트워크나 단일 교차로에 국한된 연구가 많으며, 대규모 네트워크에서의 학습 특성, 특히 혼잡 수준이 학습에 미치는 영향을 체계적으로 분석한 연구가 부족함을 지적한다. 배경 부분에서는 도시 네트워크의 매크로스코픽 기본 다이어그램(MFD)을 소개하고, 균일한 혼잡 분포가 전제된 경우 MFD가 네트워크 평균 흐름‑밀도 관계를 잘 설명한다는 점을 강조한다. 이어서 강화학습의 기본 개념을 마코프 결정 과정(MDP)으로 정리하고, 지속적인(무한히 진행되는) 문제에서 평균 보상을 최적화하는 목표 함수를 제시한다. 정책 그래디언트 방법과 REINFORCE‑TD 알고리즘을 도입해, 기존 에피소드 기반 REINFORCE를 지속형 문제에 맞게 변형한 새로운 학습 프레임워크를 제안한다. 관련 연구에서는 중앙집중식 DRL, 다중 에이전트 협조 방식, 마이크로·매크로 시뮬레이터 활용 등을 정리하고, 대부분이 에피소드 기반이며, 혼잡 수준에 따른 학습 성능을 체계적으로 조사하지 않았음을 비판한다. 문제 설정에서는 교통 흐름 모델로 파라미터‑프리 Kinematic Wave 모델을 구현한 Rule 184 셀룰러 오토마톤을 선택한다. 각 차선은 차량 한 대당 하나의 셀로 구성되며, 업데이트 규칙은 논리 연산으로 간단히 표현된다. 네트워크는 토러스 형태의 균일 격자(예: 3 × 4)로 구성되어 경계 효과를 없애고, 모든 교차로가 4개의 진입·진출 차로를 가진다. 차량은 교차로에 도착하면 직진·좌회전·우회전을 동일 확률로 선택해 밀도 분포를 균일하게 만든다. 신호는 최소 녹색 시간(g=3)과 전환 손실(red‑red 1 단계)을 갖으며, 한 학습 스텝은 g개의 CA 타임스텝에 해당한다. 각 교차로는 독립적인 에이전트로 동작한다. 상태는 8 × n( n=5) 비트 행렬이며, 행동은 북‑남 신호를 빨강(동시에 동‑서는 녹색)으로 전환하거나 유지하는 두 가지이다. 정책은 3계층 퍼셉트론(입력‑선형‑tanh‑선형‑시그모이드)으로 구현돼, 출력은 북‑남 신호를 빨강으로 바꿀 확률을 나타낸다. 보상은 현재 구간 평균 흐름에서 해당 밀도에서 MFD가 예측하는 흐름을 뺀 값으로 정의해, 네트워크 전체의 효율성을 직접 반영한다. 실험에서는 세 가지 학습 방법을 비교한다. (1) 감독학습(Supervised Learning, SL)은 두 개의 라벨링된 정책(예: LQF와 최적 정책)만을 사용해 네트워크 전역의 파라미터를 학습한다. 결과는 SL이 LQF보다 일관되게 높은 평균 흐름을 달성함을 보여준다. (2) 무작위 탐색(Random Search, RS)은 정책 파라미터를 무작위로 샘플링해 성능을 평가하고, 최적에 근접하는 정책을 빠르게 찾는다. 이는 정책 공간이 비교적 저차원이며, 보상이 명확히 정의된 경우에 효과적임을 시사한다. (3) 심층 강화학습(DRL)은 REINFORCE‑TD를 사용해 정책을 지속적으로 업데이트한다. 여기서 핵심 변수는 학습 시점의 평균 네트워크 점유율(occupancy)이다. 자유 흐름(점유율 < 30 %)에서 학습된 DRL 정책은 모든 혼잡 수준에서 최적에 근접한 성능을 보인다. 그러나 점유율이 50 %를 넘어가면 학습 속도가 급격히 느려지고, 75 % 이상에서는 정책이 거의 변하지 않아 모든 상황에서 저성능을 나타낸다. 저자들은 이를 ‘하류 용량보다 높은 교차로 처리량을 만드는 정책이 존재한다’는 네트워크 특성으로 설명한다. 즉, 정책에 관계없이 교차로가 생성할 수 있는 최대 흐름이 제한되어 있어, 정책 차이가 실제 처리량에 미치는 영향이 사라진다. 결론에서는 (i) 감독학습은 최소한의 라벨링 데이터만으로도 강력한 베이스라인을 제공한다는 점, (ii) 무작위 탐색은 간단하면서도 거의 최적에 도달할 수 있음을, (iii) DRL은 학습 데이터에 혼잡 상황이 포함될 경우 학습이 실패할 위험이 크므로, 자유 흐름 데이터만을 사용하거나, 혼잡 상황에서는 감독학습과 결합하는 하이브리드 접근이 필요함을 강조한다. 또한, 토러스 형태의 균일 격자와 Rule 184 모델이 제공하는 이론적 단순성은 대규모 네트워크에서 정책 평가와 비교를 위한 유용한 벤치마크가 될 수 있다. 향후 연구에서는 보다 현실적인 네트워크 토폴로지, 비균일한 수요 패턴, 다중 단계 신호(황색 포함) 등을 고려하고, 정책의 일반화 능력을 향상시키기 위한 전이 학습 및 메타‑학습 기법을 탐색할 것을 제안한다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기