스마트 교차로를 위한 시공간 이중단계 하이퍼그래프 강화학습
초록
본 논문은 다중 모달 이용자를 고려한 복합 교차로 신호 제어 문제에 대해, 중앙집중식 학습·분산 실행 방식을 채택한 STDSH‑MARL 프레임워크를 제안한다. 공간·시간 하이퍼엣지를 동시에 모델링하는 이중단계 하이퍼그래프 어텐션과, 신호 단계와 초록시간을 동시에 결정하는 하이브리드 이산 행동 공간을 도입해, 대중교통 우선성을 강화하면서 전체 흐름을 최적화한다. 실험 결과, 기존 최첨단 방법들보다 전반적인 멀티모달 성능이 크게 향상되었으며, 특히 시간 하이퍼엣지가 성능 개선에 핵심적인 역할을 함을 확인하였다.
상세 분석
STDSH‑MARL은 교차로 복합 네트워크에서 다중 에이전트가 협력하도록 설계된 강화학습 체계이다. 핵심 기여는 두 가지 차원의 하이퍼그래프를 동시에 활용한다는 점이다. 첫 번째 ‘공간 하이퍼엣지’는 동일 교차로에 인접한 신호기들, 교차로 간 연결 도로, 그리고 대중교통 전용 차선 등 물리적 인접성을 기반으로 구성된다. 두 번째 ‘시간 하이퍼엣지’는 동일 교차로에서 과거 N개의 타임스텝에 걸친 상태·보상 정보를 하나의 초고차원 엣지로 묶어, 장기적인 흐름 변동성을 포착한다. 이러한 이중 하이퍼그래프는 기존 그래프 신경망이 놓치기 쉬운 비선형 상호작용과 시간적 연속성을 동시에 학습하게 만든다.
어텐션 메커니즘은 두 단계로 진행된다. ‘공간 어텐션’ 단계에서는 각 에이전트가 이웃 신호기들의 상태를 가중합해 현재 교차로의 지역적 상황을 요약한다. 이어지는 ‘시간 어텐션’ 단계에서는 과거 시간 하이퍼엣지들에 대한 가중치를 동적으로 조정해, 교통 흐름의 급격한 변동(예: 버스 도착, 사고 발생)에도 신속히 대응한다. 이중 어텐션 구조는 정보 손실을 최소화하면서도 계산 복잡도를 제어할 수 있도록 설계돼, 대규모 복합 교차로에서도 실시간 적용이 가능하다.
행동 공간 설계도 주목할 만하다. 기존 연구는 보통 ‘신호 단계 선택’ 혹은 ‘녹색 시간 결정’ 중 하나만을 이산형으로 다루었지만, STDSH‑MARL은 두 요소를 하나의 복합 행동으로 결합한다. 구체적으로, 가능한 신호 단계(예: 4‑phase, 6‑phase)와 사전 정의된 녹색 시간 구간을 Cartesian product 형태로 묶어, 에이전트가 한 번의 선택으로 최적의 단계와 지속 시간을 동시에 결정하도록 한다. 이는 신호 타이밍의 연속성을 보존하면서도 학습 효율성을 높이는 효과를 가져온다.
학습은 중앙집중식으로 진행된다. 모든 에이전트의 경험을 공유 메모리 풀에 저장하고, 공동 가치 함수와 정책 네트워크를 동시에 업데이트한다. 이렇게 하면 개별 에이전트가 지역 최적에 머무르는 현상을 방지하고, 전역적인 교통 흐름을 고려한 정책을 도출할 수 있다. 실행 단계에서는 각 에이전트가 로컬 관측만을 이용해 학습된 정책을 적용하므로, 통신 비용과 지연을 최소화한다.
실험은 5가지 교통 시나리오(평상시, 피크, 버스 집중, 사고 발생, 혼합 모드)에서 진행됐으며, 주요 평가지표는 평균 대기시간, 차량·보행자·버스의 총 여행시간, 그리고 대중교통 우선성 지표(PTO)이다. STDSH‑MARL은 모든 시나리오에서 기존 강화학습 기반 방법(DQN‑TSC, MA2C) 및 전통적인 최적화 기법(CO‑CARS) 대비 평균 12‑18%의 대기시간 감소와 9‑15%의 PTO 향상을 달성했다. 특히 시간 하이퍼엣지를 제거한 경우 성능이 7‑10% 급감했으며, 이는 시간적 상관관계가 교차로 제어에 미치는 영향이 크다는 것을 실증한다.
한계점으로는 하이퍼그래프 구축 시 하이퍼엣지의 크기와 수를 사전에 정의해야 하는 점, 그리고 복합 행동 공간이 커질 경우 탐색 효율이 저하될 가능성이 있다. 향후 연구에서는 자동 하이퍼엣지 생성 메커니즘과 연속형 녹색 시간 제어를 결합한 하이브리드 행동 모델을 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기