동적 차선 방향 최적화를 위한 강화학습 기반 다중 에이전트 프레임워크
본 논문은 연결된 자율주행차량(CAV) 환경에서 실시간 교통 흐름을 개선하기 위해 도로 네트워크의 차선 방향을 동적으로 재구성하는 문제를 제시한다. 저자는 두 단계의 다중 에이전트 구조인 CLLA(Coordinated Learning‑based Lane Allocation)를 설계하여, 하위 에이전트가 교차로 주변의 로컬 교통 상황을 강화학습(Q‑learning)으로 분석하고, 상위 코디네이터가 경로 의존 그래프(PDG)를 이용해 전역 영향을 …
저자: Udesh Gunarathna, Hairuo Xie, Egemen Tanin
본 논문은 “Dynamic Graph Configuration with Reinforcement Learning for Connected Autonomous Vehicle Trajectories”라는 제목의 연구를 한국어로 종합한다. 연구 배경은 기존 교통 최적화 기법이 도로 네트워크를 정적 그래프로 가정하고, 차선 방향을 고정된 상태로 두어 실시간 교통 변동에 대응하지 못한다는 점이다. 특히, 교통량이 한 방향에 집중되고 반대 방향은 유휴 상태인 경우, 차선 방향을 동적으로 전환함으로써 전체 흐름을 개선할 수 있다는 직관을 바탕으로 새로운 문제 정의가 이루어진다.
문제 정의에서는 도로 네트워크를 G(V,E)라는 무방향 그래프로 모델링하고, 각 에지 e는 총 차선 수 nₑ와 두 방향별 차선 수 nₑ¹, nₑ²( nₑ¹+nₑ²=nₑ )를 갖는다. 차량은 연결된 자율주행차량(CAV)로 가정하고, 실시간 O‑D 경로와 수요 dᵢ,ₜ를 제공한다. 목표는 일정 시간 간격마다 차선 배분을 재조정해 평균 여행 시간 AT T를 최소화하는 ‘동적 그래프 자원 할당(Dynamic Resource Allocation)’ 문제를 푸는 것이다.
기존의 정적 최적화(선형계획법)와는 달리, 저자는 두 단계의 다중 에이전트 프레임워크인 CLLA를 제안한다. 하위 레이어는 교차로마다 하나씩 배치된 로컬 에이전트들로 구성되며, 각 에이전트는 Q‑learning을 이용해 현재 차선 배분, 대기 차량 수, 인접 교차로 흐름 등을 상태로 삼고, 차선 방향 전환(예: nₑ¹↔nₑ²)이라는 행동을 선택한다. 보상 함수는 해당 교차로를 통과하는 차량들의 평균 지연 감소와 전체 네트워크에 미치는 부정적 영향을 가중치로 반영한다.
상위 레이어 코디네이터는 모든 로컬 에이전트가 제안한 변경안을 수집하고, ‘경로 의존 그래프(PDG)’를 통해 각 제안이 전체 차량 경로에 미치는 영향을 평가한다. PDG는 CAV가 전송하는 실시간 경로 정보를 기반으로, 특정 에지의 차선 변동이 해당 경로를 이용하는 차량들의 여행 시간에 미치는 파급 효과를 정량화한다. 코디네이터는 전역 최적화 목표(전체 평균 여행 시간 최소화)를 만족하도록 로컬 제안을 조정하거나, 충돌이 예상되는 경우 제안을 거부한다.
알고리즘 흐름은 다음과 같다. (1) 실시간 트래픽 데이터 수집 → (2) 각 교차로 에이전트가 Q‑learning 기반 로컬 최적 차선 배분 제안 → (3) 코디네이터가 PDG를 구축하고 전역 영향 평가 → (4) 최종 차선 배분 명령을 하위 에이전트에 전달 → (5) 물리적 차선 방향 전환 수행.
실험에서는 시뮬레이션 기반 교통 환경을 구축하고, CLLA를 기존의 Demand‑based Lane Allocation(DLA)와 비교하였다. DLA는 전체 트래픽 수요를 기반으로 차선을 재배분하는 중앙집중식 알고리즘이며, 선형계획법을 사용해 최적해를 구한다. 실험 결과, CLLA는 평균 여행 시간을 DLA 대비 약 12% 감소시켰으며, 특히 교통량 급증 시 피크 구간에서 15% 이상 개선하였다. 또한, CLLA의 연산 시간은 실시간 적용이 가능한 수준(수초 내)으로, DLA가 수분에서 수십 분이 걸리는 것에 비해 크게 우수했다.
기술적 논의에서는 강화학습의 차원 폭증 문제를 완화하기 위해 함수 근사(신경망) 기반 Q‑learning을 사용했으며, 모델‑프리 접근법을 채택해 복잡한 상태 전이 확률을 사전에 알 필요가 없도록 설계하였다. 또한, 코디네이터가 전역 조정을 수행함으로써 로컬 에이전트 간의 행동 충돌을 방지하고, 학습된 정책을 새로운 도로 네트워크에 그대로 적용할 수 있는 일반성을 확보하였다.
결론적으로, 본 연구는 CAV 시대에 차선 방향이라는 물리적 인프라까지도 동적으로 최적화할 수 있음을 입증한다. 제안된 CLLA 프레임워크는 실시간 교통 데이터와 강화학습을 결합해, 기존 정적 최적화가 불가능했던 대규모 네트워크에서도 효율적인 차선 재배치를 가능하게 한다. 향후 연구에서는 실제 도로 실험, 안전성 검증, 그리고 다중 목적(배출가스 감소, 긴급차량 우선 등) 최적화를 위한 확장 가능성을 탐색할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기