대규모 교통신호 제어를 위한 협력형 이중 Q‑학습 프레임워크
본 논문은 교통신호 제어 문제에 적용된 새로운 다중에이전트 강화학습 알고리즘인 Cooperative double Q‑learning(Co‑DQL)을 제안한다. 독립형 이중 Q‑학습에 상한신뢰구간(UCB) 탐색 정책을 결합하고, 평균장(mean‑field) 근사를 통해 에이전트 간 상호작용을 모델링한다. 또한 보상 할당 메커니즘과 지역 상태 공유 방식을 도입해 학습 안정성을 높였으며, 수렴성을 이론적으로 증명하였다. 시뮬레이션 실험 결과, 기존 …
저자: Xiaoqiang Wang, Liangjun Ke, Zhimin Qiao
본 논문은 대규모 교통신호 제어(TSC) 문제에 적합한 새로운 다중에이전트 강화학습(MARL) 알고리즘인 Cooperative double Q‑learning(Co‑DQL)을 제안한다. 전통적인 신호 제어 방식인 사전 타이밍(pre‑timed)이나 작동형(actuated) 제어는 교통 상황의 동적 변화를 반영하기 어렵고, 중앙집중식 최적화는 상태·행동 공간의 차원 폭발과 높은 통신·연산 비용으로 실시간 적용이 제한된다. 이러한 한계를 극복하기 위해 각 교차로를 독립적인 에이전트로 모델링하고, 에이전트 간 협력을 촉진하는 분산형 학습 프레임워크를 설계하였다.
**1. 알고리즘 설계**
Co‑DQL은 크게 네 가지 구성 요소로 이루어진다.
① **독립형 이중 Q‑학습**: 각 에이전트는 두 개의 심층 Q‑네트워크(Qᵃ, Qᵇ)를 유지한다. 업데이트 시 하나의 네트워크는 다른 네트워크가 제공하는 목표값을 사용해 교차 업데이트함으로써, 전통적인 Q‑학습에서 발생하는 최대값 추정의 과대평가를 완화한다. 목표 네트워크는 소프트 타깃(θ⁰←τθ+(1‑τ)θ⁰) 방식을 적용해 파라미터 변화를 부드럽게 하여 학습 안정성을 높인다.
② **UCB 탐색 정책**: 행동 선택 시 Q값에 탐색 보너스 ln(Rₛ)/Rₛ,ₐ를 더하는 상한신뢰구간(UCB) 규칙을 사용한다. 이는 행동이 충분히 시도되지 않은 경우 탐색 보상이 크게 작용하도록 하여, ε‑greedy보다 더 체계적인 탐색‑활용 균형을 제공한다.
③ **평균장 근사**: 에이전트 수가 많아질수록 공동 행동공간이 급격히 확대된다. 평균장은 각 에이전트가 이웃 에이전트들의 행동을 평균값(가상 에이전트)으로 대체함으로써 Q함수를 Q(sₖ, aₖ, \bar aₖ) 형태로 단순화한다. 여기서 \bar aₖ는 이웃 행동의 균등분포 기대값이며, 이 근사는 계산 복잡도를 크게 낮추면서도 에이전트 간 상호작용 정보를 보존한다.
④ **보상 할당 및 지역 상태 공유**: 전체 네트워크의 목표(예: 전체 평균 대기시간 최소화)를 각 에이전트에게 공정히 분배하기 위해, 글로벌 보상을 로컬 보상과 가중치 조합으로 재구성한다. 또한, 인접 교차로의 교통 상태 정보를 제한된 범위 내에서 교환하는 로컬 상태 공유 방식을 도입해, 완전 중앙집중식 상태 수집 없이도 충분한 환경 정보를 확보한다.
**2. 이론적 분석**
논문은 두 개의 Q‑네트워크가 각각 마르코프 결정 과정(MDP)의 표준 가정(유한 상태·행동, 충분한 탐색, 학습률 감소)을 만족할 때, 평균장 근사 하에서의 업데이트 연산자가 비축소(contraction)임을 증명한다. 따라서 Q값은 확률적 고정점에 수렴하고, 해당 고정점은 평균장 게임의 베르누이 균형(Nash equilibrium)과 일치한다. 이론적 수렴 보장은 대규모 에이전트 환경에서도 안정적인 학습이 가능함을 의미한다.
**3. 실험 설정 및 결과**
실험은 SUMO 기반 교통 시뮬레이터를 사용해 다양한 시나리오(그리드형 4×4, 비정형 7교차로, 피크·비피크 트래픽 흐름, 급격한 수요 변동)를 구성하였다. 비교 대상은 Independent Q‑learning(IQL), Independent Double Q‑learning(IDQL), Multi‑agent A2C(MA2C), Mean‑field Q‑learning(MF‑Q) 등 최신 분산형 MARL 기법이다. 주요 성능 지표는 평균 대기시간, 평균 여행시간, 차량 정체 길이, 그리고 수렴 속도이다.
결과는 Co‑DQL이 모든 시나리오에서 평균 대기시간을 기존 방법 대비 10~25% 감소시켰으며, 특히 트래픽 변동이 큰 상황에서 탐색 효율성 덕분에 급격한 성능 저하 없이 안정적인 제어를 유지함을 보여준다. 학습 곡선은 다른 알고리즘보다 빠르게 수렴하고, 파라미터 τ와 UCB 상수(c)의 범위가 넓어 실제 적용 시 튜닝 부담이 적다. 또한, 보상 할당 메커니즘과 지역 상태 공유가 없을 경우 성능이 현저히 저하되는 것을 확인해, 두 보조 기법의 중요성을 실증하였다.
**4. 결론 및 향후 연구**
Co‑DQL은 이중 Q‑학습과 UCB 탐색, 평균장 근사, 보상 할당·상태 공유라는 네 가지 핵심 요소를 결합해, 대규모 교통신호 제어에서의 차원 폭발, 과대평가, 탐색 부족, 학습 불안정성 문제를 동시에 해결한다. 이론적 수렴 보장과 실험적 성능 향상이 동시에 입증된 점에서, 교통 분야뿐 아니라 스마트 그리드, 로봇 군집, 무인 차량 협업 등 다양한 대규모 다중에이전트 시스템에 적용 가능성이 높다. 향후 연구에서는 (1) 연속적인 신호 제어(phase duration)로 확장, (2) 실제 도시 교통 데이터와 연계한 현장 적용, (3) 비동기 업데이트와 통신 지연을 고려한 견고한 구현 등을 탐색할 예정이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기