딥 강화학습 기반 적응형 교통신호 제어
초록
본 논문은 시간대, 요일, 신호 상태, 대기열 길이 등을 포함한 새로운 상태공간을 설계하고, 이를 이용해 심층 강화학습 에이전트를 학습시켜 교차로 신호를 최적화한다. 9주간의 시뮬레이션 실험에서 기존 반자동 및 고정시간 제어와 비교해 평균 지연을 각각 32%와 37% 감소시켰으며, 딥 강화학습이 교통신호 제어에 유망함을 입증한다.
상세 분석
본 연구는 교통신호 제어 문제를 마르코프 결정 과정(MDP)으로 모델링하고, 상태공간에 시간대, 요일, 현재 신호 위상, 각 차선별 대기열 길이 등 교통 흐름을 대표할 수 있는 다차원 정보를 포함시켰다. 이러한 설계는 전통적인 신호 제어가 주로 차량 감지기나 고정된 주기만을 활용하는 것과 달리, 교통 패턴의 주기성 및 비주기성을 동시에 포착한다는 점에서 차별화된다. 행동공간은 각 신호 단계의 전환(예: 녹색→노란색, 노란색→빨간색 등)과 최소·최대 녹색 시간 제한을 포함하며, 이는 실제 교통 신호 시스템에서 요구되는 안전 제약을 반영한다. 보상함수는 차량 평균 지연시간의 감소량을 직접적으로 사용했으며, 음수 보상으로 과도한 대기열 확대를 억제하도록 설계하였다.
신경망 구조는 2개의 완전 연결 은닉층(각 128, 64 뉴런)과 ReLU 활성화 함수를 사용했으며, 입력 차원은 1개의 시간 인덱스와 4개의 교통 변수(시간대, 요일, 신호 상태, 대기열)로 구성된 6차원 벡터였다. 학습 알고리즘으로는 Deep Q‑Network(DQN)를 채택했으며, 경험 재플레이와 고정 타깃 네트워크를 도입해 학습 안정성을 확보하였다. ε‑greedy 정책을 통해 탐색·활용 균형을 조절했으며, ε는 1에서 0.01까지 선형 감소시켰다.
시뮬레이션은 SUMO 기반 가상 환경에서 단일 교차로를 대상으로 9주(63일) 동안 진행되었으며, 각 주는 평일·주말·특수 이벤트 등 다양한 교통량 패턴을 반영하도록 설계되었다. 비교 대상은 (1) 반자동(차량 감지 기반) 제어와 (2) 고정시간(사전 설정된 사이클) 제어였다. 결과는 딥 강화학습 에이전트가 평균 차량 지연을 반자동 대비 32%, 고정시간 대비 37% 감소시켰음을 보여준다. 특히 피크 시간대에서 대기열이 급증하는 상황에서도 에이전트는 신호 주기를 동적으로 조정해 교통 흐름을 원활히 유지하였다.
한계점으로는 단일 교차로에 국한된 실험 설계, 시뮬레이션 파라미터에 대한 민감도 분석 부족, 그리고 실제 현장 적용 시 통신 지연·센서 오류 등에 대한 고려가 미흡했다는 점을 들 수 있다. 향후 연구에서는 다중 교차로 네트워크에 대한 협조적 학습, 멀티에이전트 강화학습 프레임워크 도입, 그리고 실시간 데이터 스트리밍을 활용한 온라인 학습 방식을 탐색할 필요가 있다. 또한, 보상함수를 다목적(예: 배출가스 감소, 보행자 안전)으로 확장함으로써 보다 포괄적인 교통 관리 목표를 달성할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기