인간 중심 교통신호 제어를 위한 다중에이전트 행동 분기형 딥 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 교차로 구간에서 보행자·대중교통·자전거·자동차 등 모든 이용자를 동등하게 고려하는 인간‑중심 교통신호 제어를 목표로, 로컬·글로벌 행동을 분리한 행동‑분기(action‑branching) 구조와 이중 DQN(DDQN)을 결합한 MA2B‑DDQN 프레임워크를 제안한다. 지연된 개인 수를 직접 최소화하는 보상함수를 설계해 형평성을 최적화하고, 멜버른 실제 교통 시나리오 7가지에 대해 기존 DRL 및 전통적 방법보다 지연 인원 감소 효과가 크게 나타났다.

상세 분석

MA2B‑DDQN은 기존 다중에이전트 DRL이 직면한 두 가지 핵심 문제, 즉 고차원 이산 액션 공간과 인간 중심의 목표 정의를 동시에 해결한다. 첫째, 행동‑분기 구조는 전체 신호 제어를 (i) 각 교차로별로 “다음 두 페이즈 사이의 녹색 시간 비율”이라는 로컬 액션과 (ii) “두 페이즈의 총 지속시간”이라는 전역 액션으로 분해한다. 이 설계는 각 교차로가 독립적인 선택을 하면서도 전역적인 시간 배분을 공동으로 결정하도록 하여, 조합적 폭발을 피하면서도 협조적 행동을 가능하게 한다. 둘째, 이중 DQN(DDQN) 기반의 가치 추정은 과대평가 문제를 완화하고 학습 안정성을 높인다. 네트워크는 각 로컬 액션에 대한 개별 브랜치를 두고, 전역 액션 브랜치와 공유되는 상태 인코더를 사용한다. 이렇게 하면 파라미터 수는 거의 변하지 않으면서도 다중 교차로에 대한 스케일러블한 정책을 학습할 수 있다.

보상 설계는 논문의 핵심 차별점이다. 기존 연구는 주로 차량 대기시간, 큐 길이, 통과량 등을 최적화했지만, 본 연구는 “지연된 개인 수”를 직접 최소화한다. 여기서 개인은 보행자, 차량 승객, 대중교통 승객을 모두 포함하며, 각 모드별 가중치를 부여해 정책이 특정 교통수단에 편향되지 않도록 한다. 이 보상은 지연을 정량화하는 데 필요한 실시간 센서 데이터(차량 탑승자 수, 보행자 카운트, 대중교통 승객 예측 등)와 연계되어, 실제 운영 환경에서도 적용 가능하도록 설계되었다.

실험에서는 멜버른의 7가지 실제 교통 시나리오(출퇴근 피크, 행사 기간, 악천후 등)를 SUMO 기반 시뮬레이션으로 재현하고, MA2B‑DDQN을 기존 DQN, DDPG, PPO 기반 다중에이전트 방법 및 전통적 SCOOT, SCATS와 비교하였다. 결과는 평균 지연 인원 수가 기존 방법 대비 15~28% 감소했으며, 특히 보행자와 대중교통 승객에 대한 지연 감소 효과가 두드러졌다. 또한, 다양한 시나리오에 걸쳐 성능 편차가 작아 모델의 로버스트성이 입증되었다.

한계점으로는 전역 액션이 전체 구간의 총 지속시간을 하나만 선택한다는 점에서, 매우 긴 구간이나 복잡한 교차점 구조에서는 세밀한 시간 조정이 어려울 수 있다. 또한, 센서 데이터의 정확도와 실시간 처리 능력에 크게 의존하므로, 실제 현장 적용 시 데이터 품질 관리가 필수적이다. 향후 연구에서는 전역 액션을 다중 단계로 세분화하거나, 메타‑러닝을 통해 센서 오류에 대한 적응성을 강화하는 방향을 제안한다.

인간 중심 교통신호 제어를 위한 다중에이전트 행동 분기형 딥 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기