강인한 강화학습 기반 적응형 교통신호제어: 8상 링‑배리어 구현과 다변량 O‑D 패턴 일반화 연구

강인한 강화학습 기반 적응형 교통신호제어: 8상 링‑배리어 구현과 다변량 O‑D 패턴 일반화 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 현장 적용 가능한 8상 링‑배리어 구조를 갖는 강화학습(RL) 신호제어 알고리즘을 제안하고, 다양한 교통량·O‑D 패턴에서의 견고성을 평가한다. PPO 기반 에이전트를 비동기식 분산 학습으로 가속화했으며, 단일 교차로 사례에서 최적화된 작동식 신호제어(ASC) 대비 평균 지연을 11‑32 % 감소시켰다. 단일 O‑D 패턴으로 학습한 모델은 유사한 미보인 패턴에선 성능이 유지되지만, 크게 다른 패턴에서는 성능 저하가 나타난다. 반면, 다중 O‑D 패턴을 혼합해 학습한 모델은 다양한 미보인 상황에서도 일관되게 ASC를 능가하며 높은 일반화 능력을 보였다.

상세 분석

이 연구는 기존 RL 기반 교통신호제어가 현장에 적용되기 위해 반드시 해결해야 할 네 가지 핵심 문제—신호 구조의 단순화, 수요 변동에 대한 견고성 부족, 학습 효율성 저하, 그리고 비교 기준의 부적절함—을 동시에 다루었다. 먼저, 8상 링‑배리어 구성을 그대로 모델링함으로써 실제 교차로에서 사용되는 복합적인 상호배제와 최소 녹색·황색·레드 클리어런스 제약을 그대로 반영하였다. 이는 기존 연구에서 흔히 보이는 2~4상 단순화와는 차원이 다른 수준이다.

알고리즘은 Proximal Policy Optimization(PPO)을 채택했으며, 정책·가치 네트워크를 동시에 업데이트함으로써 학습 안정성을 확보한다. 특히, ‘Invalid Action Masking(IAM)’ 기법을 적용해 현재 신호 상태에서 불가능한 상호 전환을 사전에 차단함으로써 정책 탐색 공간을 실시간으로 축소하고, 불필요한 벌점을 방지한다.

학습 효율성 측면에서는 시뮬레이터와 에이전트 간의 API 호출 오버헤드를 최소화하기 위해 비동기식 분산 아키텍처를 설계했다. 여러 컴퓨팅 노드에서 독립적인 시뮬레이션 에피소드를 병렬 실행하고, 중앙 파라미터 서버가 주기적으로 정책 파라미터를 동기화한다. 이 구조는 단일 노드 대비 학습 시간을 4~6배 가량 단축시켰으며, 대규모 O‑D 패턴 집합을 활용한 학습이 현실적으로 가능하도록 만들었다.

견고성 평가는 두 차원에서 수행되었다. 첫째, 교통량(볼륨) 변동을 0.5배~1.5배 범위로 스케일링한 시나리오에서 평균 지연 감소율이 11‑32 %로 유지되는지를 확인했다. 둘째, O‑D 패턴의 구조적 유사성을 ‘높음·중간·낮음’ 세 단계로 구분하고, 각각에 대해 훈련·시험 교차 검증을 진행했다. 단일 패턴으로 학습한 모델은 유사한 패턴(구조적 유사도 ≥0.8)에서는 5‑10 % 정도의 성능 저하만 보였지만, 구조적 유사도가 0.4 이하인 경우 지연이 20 % 이상 악화되었다. 반면, 10가지 서로 다른 O‑D 패턴을 혼합해 학습한 모델은 모든 테스트 패턴에서 ASC 대비 평균 15 % 이상의 지연 감소를 기록했으며, 특히 구조적 차이가 큰 경우에도 성능 저하가 5 % 이하에 머물렀다.

이러한 결과는 RL 정책이 ‘다양한 수요 분포’를 내재화함으로써 정책 공간을 넓게 커버하게 되면, 실제 현장에서 발생할 수 있는 급격한 교통 패턴 변동에도 안정적으로 대응할 수 있음을 시사한다. 그러나 연구는 단일 교차로에 국한되었으며, 인접 교차로와의 협조 제어(MARL) 혹은 네트워크 수준의 최적화와는 별개이다. 또한, 시뮬레이션 기반 평가이므로 센서 오류, 통신 지연, 차량 종류(대형·소형) 차이 등 현실적 변수를 포함한 현장 시험이 필요하다.

요약하면, 8상 링‑배리어를 완전 구현한 PPO 기반 RL 에이전트와 비동기식 분산 학습 체계는 기존 ASC 대비 실질적 지연 감소 효과를 제공함과 동시에, 다변량 O‑D 패턴 학습을 통해 견고성을 크게 향상시킨다. 이는 향후 교차로 수준에서 RL 기반 적응형 신호제어를 실증 단계로 옮기는 데 중요한 기술적 토대를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기