경쟁형 다중 운영자 강화학습을 통한 AMoD 가격 및 차량 재배치 최적화

경쟁형 다중 운영자 강화학습을 통한 AMoD 가격 및 차량 재배치 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 두 개의 자율 모빌리티 운영자가 동시에 가격과 차량 재배치를 학습하는 경쟁형 강화학습 프레임워크를 제안한다. 이 모델은 이산 선택 이론을 통합해 승객의 가격·시간·소득 민감도를 반영한 수요 배분을 자연스럽게 생성한다. 실증 실험은 샌프란시스코, 워싱턴 DC, 뉴욕 남부 등 실제 택시 데이터를 이용해 경쟁 상황이 가격 인하와 차량 배치 패턴에 미치는 영향을 분석한다.

상세 분석

본 연구는 기존 단일 운영자 강화학습 기반 AMoD 제어가 간과해 온 ‘경쟁’이라는 핵심 시장 메커니즘을 정량적으로 탐구한다. 먼저, 두 운영자를 각각 독립적인 에이전트로 설정하고, 이들이 동시에 가격 스칼라와 목표 유휴 차량 비율을 출력하도록 MDP를 설계하였다. 상태공간은 네트워크 구조, 각 운영자의 유휴 차량 수, 진행 중인 차량 흐름, 지난 단계의 가격 및 대기열 길이 등을 포함하며, 경쟁자의 가격만을 관찰할 수 있도록 제한함으로써 현실적인 정보 비대칭을 반영한다. 행동공간은 원점 기반 가격 스칼라(0~1)와 Dirichlet 분포를 통한 재배치 목표 비율로 구성돼, 가격은 역사적 OD 기준가격에 스칼라를 곱해 산출하고, 재배치 목표는 최소비용 흐름 문제를 풀어 실제 차량 이동 명령으로 변환된다.

수요 측면에서는 다중 선택 로그잇 모델을 도입해 승객이 각 운영자와 대체 교통수단(예: 대중교통) 중 하나를 선택하도록 한다. 효용 함수는 가격, 예상 여행시간, 승객의 시급(소득) 등을 포함해 가격 민감도와 소득 효과를 동시에 고려한다. 이렇게 생성된 확률적 선택 메커니즘은 가격 변동에 따라 수요가 실시간으로 재분배되는 ‘내생적’ 경쟁 구도를 만든다.

학습 알고리즘은 각 에이전트가 독립적인 Actor‑Critic(A2C) 구조를 사용한다. 그래프 신경망(GCN) 기반 인코더가 공간적 의존성을 포착하고, Actor는 Beta 분포 파라미터(가격)와 Dirichlet 파라미터(재배치) 를 출력한다. Critic은 전역 합산을 통해 상태 가치를 추정한다. 파라미터 공유가 없으므로 두 에이전트는 서로의 전략을 직접 관찰하거나 모방하지 못하고, 오직 가격 신호와 환경 변화를 통해 간접적으로 학습한다.

실험 결과는 세 도시의 수요 변동성(CV) 차이에 따라 경쟁 효과가 다르게 나타남을 보여준다. 수요 변동성이 큰 샌프란시스코에서는 경쟁이 가격을 크게 낮추고, 차량이 고수요 지역에 집중되는 경향이 뚜렷했다. 반면, 수요가 비교적 균등한 뉴욕 남부에서는 가격 경쟁이 더 중요한 역할을 하여, 가격 전용 정책이 가장 높은 수익을 기록했다. 워싱턴 DC에서는 재배치 중심 정책이 우세했으며, 이는 중간 수준의 수요 변동성이 재배치가 경쟁 우위가 되게 함을 시사한다.

또한, 경쟁 상황에서도 두 에이전트 모두 학습이 수렴함을 확인했으며, 이는 경쟁이 추가적인 stochasticity를 야기하지만, 강화학습이 충분히 강건함을 의미한다. 특히, 부분적으로 관측되지 않은 경쟁자 전략(가격만 관찰 가능)에도 불구하고, 에이전트는 최적에 근접한 정책을 찾아내어 전체 시스템 효율성을 유지한다.

이 논문은 AMoD 시장을 실제와 가깝게 모델링함으로써, 정책 입안자와 기업이 가격·재배치 전략을 설계할 때 경쟁 효과를 정량적으로 고려할 수 있는 분석 도구를 제공한다는 점에서 학문적·실무적 의의가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기