단일 에이전트 강화학습 기반 지역 적응형 교통신호 제어

초록

본 논문은 다중 에이전트 방식의 확장성 문제를 극복하고자, 단일 에이전트 강화학습 모델을 제안한다. 상태와 보상은 큐 길이를 기반으로 정의하고, 행동은 큐 동역학을 조절하도록 설계하였다. 프로브 차량의 링크 여행시간 데이터를 활용해 큐 길이를 추정함으로써 실시간 교통 상황을 파악하고, SUMO 시뮬레이션을 통해 대규모 지역 혼잡 완화 효과를 검증하였다.

상세 요약

이 연구는 기존 지역 적응형 교통신호 제어(ATSC) 분야에서 다중 에이전트 강화학습(MARL)이 주류를 이루고 있으나, 에이전트 수가 증가함에 따라 학습 안정성 저하, 통신 오버헤드, 정책 협조 문제 등 확장성 한계가 명확해진다는 점을 정확히 짚어낸다. 따라서 중앙집중식 교통관제 시스템에 부합하는 단일 에이전트 구조를 채택함으로써, 전체 교차로를 하나의 정책 네트워크가 제어하도록 설계하였다. 핵심 설계 요소는 다음과 같다.

상태 정의: 각 교차로의 진입 링크별 큐 길이(차량 대기 수)를 벡터 형태로 결합하고, 인접 교차로와의 연결성을 고려해 공간적 상관성을 보존한다. 기존 연구가 차량 밀도나 대기 시간 등을 사용한 것과 달리, 큐 길이는 교통 혼잡을 직접적으로 반영하면서도 프로브 차량의 링크 여행시간 데이터로부터 통계적 추정이 가능하도록 설계되었다.
행동 설계: 행동 공간은 각 교차로의 신호 단계(예: 녹색·황색·적색 지속 시간) 조합으로 정의된다. 특히, 행동은 큐 길이 변화를 최소화하도록 설계된 ‘큐 동역학 제어’ 목표와 연결된다. 이는 신호 변화를 통해 급격한 큐 증가를 억제하고, 전체 네트워크의 흐름 균형을 유지한다는 의미이다.
보상 함수: 보상은 전체 지역의 큐 길이 합의 감소량을 직접 사용한다. 즉, t시점의 총 큐 길이와 t+1시점의 총 큐 길이 차이를 보상으로 환산함으로써, 에이전트가 장기적인 혼잡 감소를 목표로 학습하도록 유도한다. 이 보상 설계는 ‘대기 시간 최소화’와 유사하지만, 큐 길이 자체가 교차로 간 상호작용을 더 명확히 드러내어 학습 효율을 높인다.
프로브 차량 기반 큐 추정: 전통적인 센서(루프, 카메라) 대신, GPS 기반 프로브 차량 데이터를 활용한다. 링크 여행시간을 실시간으로 수집하고, 통계적 모델(예: Kalman Filter)을 적용해 해당 링크의 평균 대기 차량 수를 역산한다. 이 접근법은 기존 인프라 비용을 크게 절감하고, 도시 전역에 걸친 데이터 커버리지를 확보한다는 장점이 있다.
학습 알고리즘: Deep Q-Network(DQN) 변형을 사용했으며, 경험 재플레이와 목표 네트워크 고정 기법을 적용해 학습 안정성을 확보하였다. 또한, 대규모 지역 환경에서의 샘플 효율성을 높이기 위해 우선순위 경험 재플레이와 다중 단계 보상 누적 방식을 도입하였다.

실험은 SUMO 시뮬레이터에서 5×5 격자형 교차로 네트워크와 실제 도시 지도 기반 시나리오 두 가지 설정으로 수행되었다. 비교 대상은 고정 타이머, 전통적인 사전 정의된 신호 계획, 그리고 최신 다중 에이전트 RL 모델이었다. 결과는 제안된 단일 에이전트 모델이 평균 대기 시간, 총 큐 길이, 그리고 차량 평균 속도 측면에서 모두 유의미하게 우수함을 보여준다. 특히, 피크 시간대에 발생하는 대규모 큐 폭발을 효과적으로 억제해, 전체 네트워크의 흐름을 안정화시키는 데 성공하였다.

이러한 설계와 실험 결과는 단일 에이전트 RL이 지역 규모 ATSC 문제에 충분히 적용 가능함을 증명한다는 점에서 학문적·실무적 의의가 크다. 특히, 프로브 차량 데이터 활용이라는 현실적인 데이터 소스와 중앙집중식 정책 제어 구조는 기존 인프라에 대한 의존도를 낮추고, 향후 스마트 시티 교통 관리 시스템에 바로 적용할 수 있는 기반을 제공한다.

초록

상세 요약

📜 논문 원문 (영문)