계층형 연합 강화학습을 활용한 적응형 교통신호 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 교통량·구조가 서로 다른 교차로들을 동적으로 군집화하여 각 군집 내에서 FedAvg를 수행하는 계층형 연합 강화학습(HFRL) 프레임워크를 제안한다. 클러스터 기반(FedClusterLight)과 최적화 기반(FedFomoLight) 두 가지 군집화 방법을 도입해, 데이터 프라이버시와 통신 비용을 유지하면서도 이질적인 교차로 환경에 맞춤형 정책을 학습한다. 실험 결과, HFRL은 분산형 및 기존 연합 RL보다 우수하며, 대규모·이질적 실제 교통망에서는 중앙집중식 RL과 경쟁하거나 이를 능가한다.

상세 분석

본 연구는 교통신호 제어라는 복합 최적화 문제에 MARL과 FL을 결합한 기존 접근법이 교차로 간 데이터 이질성으로 인해 성능 저하를 겪는 점을 정확히 짚어낸다. 이를 해결하기 위해 제안된 HFRL은 두 단계의 계층 구조를 채택한다. 첫 번째 단계에서는 각 교차로가 로컬 RL(주로 DQN 혹은 PPO 기반) 에이전트로 학습하면서, 교차로의 트래픽 패턴, 도로 토폴로지, 보행자·마이크로모빌리티 비중 등을 특징 벡터로 추출한다. 두 번째 단계에서는 서버가 이 특징들을 기반으로 동적으로 군집을 형성한다. 클러스터 기반 방법인 FedClusterLight은 K‑means 혹은 계층적 클러스터링을 활용해 유사 교차로를 그룹화하고, 각 그룹별로 독립적인 FedAvg를 수행한다. 최적화 기반 방법인 FedFomoLight은 군집 할당을 정수선형계획(IP) 형태로 모델링해, 전체 손실(예: 평균 여행시간) 감소를 목표로 군집을 재조정한다. 이러한 동적 군집화는 교통 상황 변화에 따라 실시간으로 업데이트될 수 있어, 정적인 클러스터링이 갖는 경직성을 극복한다.

통신 효율성 측면에서, HFRL은 각 라운드마다 전체 모델 파라미터가 아니라 군집별 평균 파라미터만 전송하므로, 전체 전송량이 O(N/K) (N: 교차로 수, K: 군집 수) 로 감소한다. 또한, 로컬 업데이트 횟수를 조절해 통신 주기를 늘릴 수 있어, 실시간 교통 제어 시스템에 적합한 트레이드오프를 제공한다.

실험에서는 합성 네트워크와 뉴욕시 실제 교통 데이터를 사용했으며, 평가 지표는 평균 여행시간, 대기시간, 그리고 신호 변경 횟수이다. HFRL은 특히 교차로 이질성이 큰 경우(예: 교외·도심 혼합 구역)에서 FedAvg 기반 연합 RL보다 1218% 정도 성능 향상을 보였다. 중앙집중식 MARL과 비교했을 때는 소규모 네트워크에서는 비슷한 수준이지만, 대규모 네트워크에서는 통신 병목과 학습 불안정성으로 인해 HFRL이 510% 우위를 점했다. 또한, 군집 해석 결과는 도로 계층 구조(주요·보조 도로)와 피크 트래픽 패턴이 군집 형성에 주요 요인임을 보여, 정책 해석 가능성을 제공한다.

한계점으로는 군집 수 K를 사전에 지정해야 하는 점과, 군집 재조정 과정에서 발생하는 추가 연산 비용이 있다. 향후 연구에서는 메타러닝을 통한 자동 K 탐색과, 엣지 서버 간 협업을 통한 군집 간 파라미터 교환을 고려할 수 있다. 전반적으로 HFRL은 프라이버시 보호와 통신 효율성을 유지하면서, 이질적인 교통 환경에 맞춤형 강화학습 정책을 제공하는 실용적인 프레임워크라 할 수 있다.

계층형 연합 강화학습을 활용한 적응형 교통신호 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기