- Title: SmartFlow Reinforcement Learning and Agentic AI for Bike-Sharing Optimisation
- ArXiv ID: 2601.00868
- 발행일: 2025-12-30
- 저자: Aditya Sreevatsa K, Arun Kumar Raveendran, Jesrael K Mani, Prakash G Shigli, Rajkumar Rangadore, Narayana Darapaneni, Anwesh Reddy Paduri
📝 초록
SmartFlow는 강화학습과 에이전트 기반 인공지능을 통합한 다층적 프레임워크로, 도시 자전거 공유 서비스에서 발생하는 동적인 재균형 문제를 해결합니다. 그 구조는 전략적, 전술적, 그리고 커뮤니케이션 기능을 분리하여 명확성과 확장성을 보장하고 있습니다. 전략 수준에서는 뉴욕의 Citi Bike 네트워크를 고대비 시뮬레이션에서 학습한 딥 Q-네트워크(DQN) 에이전트가 마르코프 의사결정 과정으로 문제를 모델링하여 견고한 재균형 정책을 학습합니다. 이러한 고수준 전략은 다중 구간 여행을 최적화하고 단시일 내에 출동할 수 있도록 스케줄링하여 차량의 이동 거리를 최소화하는 결정론적 전술 모듈로 전달됩니다. 여러 시드를 이용한 실행을 통해 SmartFlow의 높은 효율성이 입증되었으며, 네트워크 불균형을 95% 이상 감소시키고 최소한의 이동 거리와 높은 트럭 활용도를 달성하였습니다. 커뮤니케이션 계층은 대규모 언어 모델(LLM)을 갖춘 기반 에이전트 AI로 구동되어 물류 계획을 현장 직원에게 명확하고 실행 가능한 지시사항으로 전달하여 해석 가능성과 실행 준비성을 보장합니다. 이 통합은 기계 지능을 인간 운영과 연결함으로써, 유휴 시간을 줄이고 자전거 이용 가능성을 향상시키며 운용 비용을 낮추는 확장 가능한 해결책을 제공합니다. SmartFlow는 복잡한 도시 이동 네트워크에서 해석 가능하고 AI 기반의 물류를 위한 청사진을 제시합니다.
💡 논문 해설
1. **복잡한 문제 해결**: 스마트플로우는 자전거 공유 시스템에서 자전거의 균형 잡힌 분포를 유지하는 복잡한 문제에 대응합니다. 이는 마치 도시 전체가 한 덩어리인 퍼즐을 맞추는 것과 같습니다.
2. **AI와 인간의 협업**: 스마트플로우는 AI와 인간 운영자 간의 의사소통 격차를 줄이기 위해 현대적인 에เจncy AI 층을 통합합니다. 이는 마치 복잡한 지시사항을 일반인도 이해할 수 있는 명확한 언어로 번역하는 것과 같습니다.
3. **실시간 적응성**: 강화 학습 기반의 스마트플로우 시스템은 실시간으로 변화하는 도시 환경에 대응하여 최적의 자전거 재분배 정책을 학습합니다. 이는 마치 날씨가 변해도 항상 올바른 준비를 하는 선수와 같습니다.
📄 논문 발췌 (ArXiv Source)
# 소개
자전거 공유 시스템(BSS)은 편리하고 지속 가능한 마지막 마일 교통 문제 해결책으로 현대 도시 이동성의 핵심이 되었습니다. 일정 기간 동안 자전거 대여를 제공함으로써, 이러한 시스템은 교통 정체를 줄이고 건강한 생활 방식을 촉진하며 통합된 공공 교통 네트워크에 지원을 제공합니다. 전 세계 도시들이 지속 가능성에 더욱 집중하면서 이러한 공유 자원의 효과적인 관리가 중요한 문제로 부각되고 있습니다.
그러나 이러한 시스템들의 약점은 지속적으로 발생하는 운영상의 난관인 동적 자전거 이용 불균형입니다. 이는 통행자들의 거대한 흐름과 변동하는 수요 패턴으로 인해 발생하며, 정류장이 피크 시간에는 완전히 비거나 사용자가 불편하게 느껴질 정도로 가득 차게 됩니다. 이러한 상황은 서비스의 질을 저하시키고 운영 비용을 증가시킵니다. 전통적인 균형 조정 방법은 자전거를 수송하는 여러 수리차량에 의존하지만, 이들은 고정적이거나 수동적으로 스케줄링되며 도시 환경의 유동성을 반영하지 못하고 연료, 차량 유지 관리 및 인력과 관련된 로지스틱 비용이 발생합니다.
이러한 문제는 인공 지능(AI)의 혁신적인 시대와 맞물려 있으며, 이로 인해 데이터 기반 기술을 활용하는 5세대 BSS가 등장했습니다. 강화 학습(RL)의 발전으로 반응형 방법을 넘어 직접 환경과 상호 작용하여 최적이고 전략적인 균형 조정 정책을 배울 수 있는 에이전트를 개발할 수 있는 기회가 생겼습니다. 또한, 에제ncy AI의 등장은 복잡한 머신 생성 전략과 실제 세계에서의 인간 실행 간의 격차를 메우는 새로운 방법을 제공합니다.
이러한 기회에 대응하여 본 논문은 스마트플로우라는 하이브리드 프레임워크를 소개합니다. 이 시스템은 딥 강화 학습과 에제ncy AI를 결합해 지능적이고 예방적인 균형 조정 솔루션을 제공합니다. 스마트플로우의 핵심에는 고도의 신뢰성을 갖춘 시뮬레이션 환경 내에서 훈련된 딥 Q-네트워크(DQN) 에이전트가 있습니다. 이 분리된 관심사는 RL 에이전트가 네트워크 균형이라는 고수준 전략적 목표에 집중하게 하며, 결정론적인 작전 계획 모듈은 서비스 차량의 다단계 여정을 최적화하는 복잡한 문제를 처리합니다. 마지막으로 혁신적인 에제ncy AI 층은 이러한 최적화된 계획을 명확하고 인간이 이해할 수 있는 배치 지시사항으로 자동 변환하여 불명확성의 가능성을 줄이고 에이전트의 전략이 정밀하게 실행되도록 합니다.
본 연구의 주요 기여는 세 가지입니다. 첫째, 강화 학습 환경 내에서 동적인 자전거 균형 조정 문제를 모델링했습니다. 둘째, 네트워크 불균형을 크게 줄이는 최적의 재분배 행동을 추천할 수 있는 DQN 에이전트를 개발하고 훈련시켰습니다. 셋째, 이 프레임워크가 운영 효율성을 향상시키고 복잡한 도시 이동성 시스템 관리를 위한 확장 가능한 투명한 솔루션을 제공할 수 있음을 입증합니다.
관련 연구
자전거 공유 시스템(BSS)에서 자전거의 균형 잡힌 분포를 유지하는 운영적 문제는 정적인 균형 조정과 동적인 균형 조정으로 구분되는 잘 알려진 연구 영역입니다. 초기 연구들은 주로 정적인 자전거 균형 조정 문제(SBRP)에 초점을 맞추었습니다. 이때 차량 경로는 역피크 시간대에 과거 수요를 기반으로 최적화되었습니다. 이러한 연구는 일반적으로 용량 제한된 차량 경로 문제(CVRP) 형태로 작업을 정의하고, 혼합 정수 선형 계획법(MILP)과 같은 방법론을 사용하여 최적해를 찾았습니다. 이러한 접근 방식은 기초적이지만, 실시간 수요 변동에 대응하는 유연성을 제공하지 못합니다.
따라서 연구는 동적인 자전거 균형 조정 문제(DBRP)로 이동했습니다. DBRP는 네트워크의 현재 상태를 기반으로 적응적 결정을 내리는 것을 목표로 합니다. 이러한 복잡한 문제에 다양한 방법론이 적용되었습니다. 수학적 최적화는 아직도 관련성이 있으며, 확률적 및 강건한 최적화 모델은 수요 불확실성을 다루기 위해 설계되었지만, 계산적인 확장성에 어려움을 겪습니다. 이러한 확장 문제를 극복하기 위해 많은 연구에서는 휴리스틱과 시뮬레이션 기반 전략을 제안했습니다. 이러한 방법은 에이전트 기반 시뮬레이션 및 곡률 기반 알고리즘 등을 포함하여 실시간 구현을 위한 근사 최적 결정에 초점을 맞추어 실제적인 확장 가능한 솔루션을 제공합니다.
최근에는 데이터 기반 접근 방식들이 그래프 이론과 커뮤니티 탐지를 활용하거나 모빌리티 히트맵에서 컴퓨터 비전 기술을 사용하여 수요 예측을 강화하는 방법도 제안되었습니다. 최근에는 강화 학습(RL)이 DBRP에 특히 유망한 패러다임으로 등장했습니다. RL은 복잡하고 불확실한 환경에서 순차적 의사결정에 본질적으로 적합하며, 시스템의 명시적인 모델 없이 에이전트가 효과적인 정책을 직접 상호 작용하여 학습할 수 있습니다.
여러 연구는 딥 RL 방법이 전통적인 휴리스틱보다 우수함을 입증했습니다. 예를 들어, 최근 접근 방식은 그래프 신경 네트워크와 DQN을 결합한 DeepBike 프레임워크나 차량 대열의 조정을 위한 다중 에이전트 강화 학습(MARL)을 탐색하여 서비스 수준 향상과 손실된 사용자 수요 감소에 대한 중요한 개선을 보여주었습니다.
하이브리드 프레임워크로의 추세는 다양한 기법의 장점을 결합하는 방식으로 균형 조정 작업의 복잡성을 강조합니다. 본 연구는 스마트플로우를 제안함으로써 이러한 연구에 기여하고 있습니다. 이 시스템은 AI의 최적화된 전략과 이를 실행해야 하는 인간 운영자 간의 의사소통 격차라는 핵심적이면서 자주 무시되는 측면을 해결합니다. 스마트플로우는 RL 에이전트를 현대적인 에제ncy AI 층과 통합하여 계산된 균형 조정 계획을 명확하고 인간이 이해할 수 있는 지시사항으로 변환하는 데 중점을 두고 있습니다.
자전거 균형 조정에서의 하이브리드 프레임워크
균형 조정 문제를 완벽하게 해결하기 위한 단일 방법은 없기 때문에, 최근 연구는 다양한 AI 및 운영 연구 패러다임의 장점을 결합하는 하이브리드 프레임워크에 초점을 맞추고 있습니다. 이러한 시스템은 보통 예측 또는 학습 기반 구성 요소와 결정론적 최적화 알고리즘을 쌍으로 짝지어 사용합니다.
하나의 일반적인 접근 방식은 머신 러닝 기반 수요 예측과 그 다음 단계인 최적화를 결합하는 것입니다. Lin et al. (2018)은 그래프 컨볼루션 네트워크(GCNN)을 사용해 정류장 수준의 수요를 예측하고, 이 예측 결과를 용량 제한된 위치-경로 모델에 입력하여 차량 움직임을 계획합니다. Li et al. (2023)은 다층 퍼셉트론(MLP)으로 예측하고, 유전 알고리즘(GA)을 사용해 트럭 기반 이동과 사용자 기반 인센티브의 최적 조합을 찾는 등 두 가지 다른 균형 조정 전략에 대해 동시에 최적화합니다.
다른 강력한 하이브리드 패러다임은 휴리스틱과 고도의 시뮬레이션을 통합하는 것입니다. Ban et al. (2019)은 “곡률 맵” 휴리스틱을 개발하여 자전거가 부족하거나 과도한 부분을 3D 지형으로 처리했습니다. 그리디 알고리즘은 자전거를 볼록한 ‘산’에서 오목한 ‘비탈’로 이동하는 루트를 생성합니다. 이러한 가벼운 휴리스틱은 에이전트 기반 시뮬레이터 내에 내장되어 실시간 피드백 루프를 제공하며, 최신 시스템 상태를 바탕으로 후속 경로가 조정될 수 있습니다.
하이브리드 프레임워크의 추세는 다양한 기법의 장점을 결합하는 방식으로 균형 조정 작업의 복잡성을 강조합니다. 예를 들어, 연구자들은 그래프 컨볼루션 네트워크와 전통적인 경로 알고리즘을 결합하거나 전략적 재고 관리를 전술적 경로 설정에서 분리하는 이중 정책 RL 시스템을 개발했습니다. 본 연구는 스마트플로우를 제안함으로써 이러한 연구에 기여하고 있습니다.
자료 및 방법
스마트플로우 프레임워크는 고수준 전략 학습을 실질적인 실제 행동으로 번역하는 다층 시스템입니다. 데이터 공학, 딥 강화 학습, 에제ncy AI를 결합하여 데이터 준비부터 자동 운영 실행까지 포괄적인 파이프라인을 생성합니다. 전체 구현은 전처리 파이프라인, 모델 훈련 절차 및 시각화 구성 요소를 포함하며 스마트플로우 리포지토리에서 이용 가능합니다.
이론적 프레임워크
스마트플로우 설계는 가치 기반 강화 학습과 에제ncy 언어 모델이라는 인공 지능의 두 가지 핵심 영역에 기반하고 있습니다.
가치 기반 강화 학습
가치 기반 RL 방법은 최적의 action-value 함수, $`Q^*(s, a)`$를 학습하여 문제 정의된 MDP를 해결하도록 설계되었습니다. 이 함수는 상태 $`s`$에서 행동 $`a`$을 취하고 그 이후에 최적으로 계속 진행할 때 달성 가능한 예상 미래 보상의 최대치를 추정합니다. 이 함수는 벨만 최적 방정식을 따릅니다:
상태 공간이 크거나 연속적인 문제에서는 이 함수를 테이블로 표현하는 것이 불가능합니다. 딥 Q-네트워크(DQN) 알고리즘은 가중치 $`\theta`$를 사용하는 딥 뉴럴 네트워크를 강력한 함수 근사기로 사용하여 action-value 함수, $`Q(s, a; \theta)`$를 추정함으로써 이 문제를 해결합니다. 안정적인 훈련을 보장하기 위해 DQN은 두 가지 중요한 혁신을 도입했습니다.
첫째, 경험 재생은 과거 트랜지션을 재생 버퍼에 저장하고 이를 샘플링하여 네트워크를 훈련시키는 방법입니다. 이렇게 하면 연속적인 관찰의 시간적 상관성을 깨고 딥 러닝에 필요한 i.i.d 가정을 충족시킵니다.
둘째, 타겟 네트워크는 가중치가 주기적으로 업데이트되는 별도의 네트워크로 벨만 목표를 생성합니다. 이는 온라인 네트워크의 가중치에서 타겟 값을 분리하여 발생할 수 있는 진동 및 발산 학습 패턴을 방지합니다.
에제ncy AI와 기반 추론
“에제ncy 모델"은 목표를 달성하기 위해 추론하고 행동하는 시스템입니다. RL 에이전트가 최적의 숫자 정책을 학습하는 동안, 에제ncy AI 층은 시스템 계획을 인간 운영자에게 전달하는 마지막 단계를 처리합니다. 이와 같은 작업에서 Large Language Models(LLM)을 사용할 때 주요 이론적인 과제 중 하나는 사실적 일관성 확보 및 “환상” 위험 감소입니다. 스마트플로우는 기반 프롬프트 엔지니어링을 통해 이를 해결합니다. LLM은 프롬프트를 통해 계획 모듈에서 제공된 데이터만 추론하도록 명시적으로 제한됩니다. 이렇게 하면 에이전트의 자연 언어 출력이 최적화된 계획의 신뢰성 있고 검증 가능한 번역이 되도록 합니다.
시스템 아키텍처
스마트플로우 프레임워크는 고려 사항을 분리하는 데 중점을 두며 복잡한 균형 조정 작업을 전략적, 전술적 및 의사소통 계층으로 분해합니다. 이 다중 계층 설계는 각 구성 요소가 문제의 특정 부분에 집중하도록 하여 고급 강화 학습과 에제ncy AI를 결합하여 데이터 준비부터 자동 운영 실행까지 포괄적인 파이프라인을 생성합니다.
스마트플로우 프레임워크의 시스템 아키텍처. 전략적 RL 에이전트가 전술적 계획 모듈을 안내하고, 그 출력은 에제ncy AI 층에서 인간이 이해할 수 있는 지시사항으로 번역됩니다.
전략적 핵심: 강화 학습 에이전트
프레임워크의 고수준 인텔리전스는 시스템의 전략가로서 작동하는 딥 Q-네트워크(DQN) 에이전트입니다. 이 에이전트의 주요 책임은 장기적인 최적 균형 조정 정책을 학습하는 것입니다. 이를 위해 고도의 신뢰성을 갖춘 Simulator-in-the-Loop 내에서 작동합니다. 이러한 안전하고 확장 가능한 시뮬레이터에서는 에이전트가 실제 비용이나 서비스 중단 없이 수백만 가지 상태 행동 가능성을 탐색하고 그 결정에 대한 결과를 학습할 수 있습니다. 이 계층의 출력은 딱딱한 명령 세트가 아니라 네트워크 상태에서 가장 유리한 자전거 전송을 요구하여 시스템을 예방적으로 균형을 잡는 고수준 전략적 정책입니다.
전술적 실행: 운영 계획 모듈
RL 에이전트에 의해 개발된 추상적인 전략은 전술가: 결정론적 운영 계획 모듈에게 전달됩니다. 이 모듈은 학습한 정책과 구체적인 로지스틱 사이의 중요한 다리 역할을 합니다. 이 모듈은 에이전트가 제안하는 시리즈의 전략적 전송을 받아, 두 단계 프로세스를 수행합니다. 첫째, 다단계 여정 최적화 알고리즘은 개별 전송을 효과적인 연속된 경로로 연결하여 차량 대열이 활용성을 극대화하도록 합니다. 둘째, 정시 스케줄링 알고리즘이 각 여정의 단계에 적극적인 배치 시간을 할당하여 자전거가 필요한 바로 직전에 이동되도록 합니다.
의사소통 인터페이스: 에제ncy AI 층
마지막으로, 가장 혁신적인 계층은 에제ncy 통신 계층입니다. 이 계층은 전술적 계획을 실제화합니다. 최적화된 여정 스케줄을 받아 구조화된 기계가 읽을 수 있는 데이터를 명확하고 인간이 이해할 수 있는 배치 지시사항으로 번역하는 데 사용되는 Large Language Model(LLM)을 사용합니다. 이를 통해 복잡한