전기차 운전자의 충전 행동을 재현하는 강화학습 기반 에이전트 모델
초록
본 연구는 영국 전역의 개인 전기차 운전자를 대상으로, 다단계 딥 Q‑네트워크(DQN) 학습과 에이전트 기반 시뮬레이션을 결합한 강화학습 프레임워크를 제시한다. 클러스터링으로 운전자 유형을 구분하고, 각 군집의 대표 에이전트를 훈련시켜 실제 충전 세션 데이터와의 상관관계를 통해 가장 현실적인 학습 단계(중간 에피소드)를 선정한다. 모델은 충전 ‘사막’ 지역을 식별하고, 고속도로와 도시 경계에 급속 충전 허브를 확대하는 정책 방향을 제시한다.
상세 분석
이 논문은 기존 전기차(EV) 충전 수요 모델링이 정적 규칙에 의존하거나, 강화학습을 이용하더라도 차량군(플릿) 최적화에 초점을 맞추는 한계를 극복하고자 한다. 핵심 기여는 (1) 운전자의 이질성을 반영한 사전 클러스터링, (2) 각 군집별 대표 에이전트를 활용한 다단계 훈련‑시뮬레이션 루프, (3) 실제 충전 세션 데이터와의 지속적 검증을 통해 ‘최적’이 아닌 ‘실제와 가장 유사한’ 학습 단계 선택, (4) 대규모 국가 수준 도로·충전망을 대상으로 한 확장성 확보이다.
클러스터링은 여행 거리, 초기 배터리 수준, 여행 동시밀도(TCD), 충전소 밀도(CD) 네 가지 변수를 사용해 K‑means 기반 군집을 형성하고, 이후 업무·레저 목적에 따라 세분화한다. 각 군집에서 중심에 가장 가까운 두 에이전트를 선정해 두 개의 훈련 세트에 배치하고, 10개의 무작위 시뮬레이션 에이전트 집합을 결합해 총 20번의 실험을 수행한다. 이는 과적합을 방지하고 결과의 통계적 강건성을 확보하기 위한 설계이다.
강화학습은 오프‑폴리시 Q‑러닝을 기반으로 DQN을 적용했으며, 상태공간에 충전소 실시간 가용성, 대기열 추정, 배터리 SOC(상태) 등을 포함한다. 행동공간은 ‘충전소 선택·대기·충전·이동’ 등 이산형으로 정의되어, 딥 네트워크가 큰 도로망에서도 효율적으로 가치함수를 근사할 수 있게 한다. 학습률, 할인율, 탐험률 등 하이퍼파라미터는 AWS 클러스터(64 vCPU, 128 GB RAM)에서 베이즈 최적화를 통해 튜닝되었다.
에피소드마다 시뮬레이션 결과를 실제 ChargePoint 데이터와 공간·시간 상관분석으로 검증한다. 흥미롭게도 가장 높은 상관점을 보인 에피소드는 학습이 완전히 수렴된 최종 단계가 아니라, 초기 탐험 단계와 수렴 단계 사이의 중간 단계였다. 이는 실제 운전자 집단이 다양한 경험 수준을 동시에 보유하고 있음을 반영한다는 점에서 ‘제한된 합리성(bounded rationality)’을 모델링한 성공적인 사례라 할 수 있다.
결과 분석에서는 SOC가 낮은 상태에서 장거리 구간을 통과하는 운전자가 집중되는 ‘충전 사막’ 지역을 지도화하였다. 주로 북서부와 스코틀랜드 내륙, 그리고 일부 도심 외곽에서 충전소 밀도가 낮아 배터리 고갈 위험이 크게 나타났다. 정책 시뮬레이션에서는 고속도로 연계 급속 충전 허브와 도시 경계에 중간급 충전소를 추가 배치했을 때, 전체 충전 실패율이 23 % 감소하고, 평균 충전 대기 시간이 15 % 단축되는 효과를 확인했다.
한계점으로는 (1) 실제 운전자의 주관적 만족도·가격 민감도 등 정성적 요인을 모델에 포함하지 못한 점, (2) 충전소 고장·정전 등 비정상 상황을 고려하지 않은 점, (3) 클러스터링 변수 선택이 데이터 가용성에 의존한다는 점을 들 수 있다. 향후 연구에서는 설문·실험 데이터를 결합해 보상함수를 다차원화하고, 멀티‑에이전트 협력 학습을 도입해 충전소 운영자와의 상호작용을 모델링하는 방향을 제시한다.
전반적으로 이 논문은 대규모 교통·에너지 시스템에서 인간 운전자의 적응적·제한적 합리성을 재현하는 방법론적 토대를 제공하며, 정책 입안자가 충전 인프라 배치를 최적화하는 데 실증적 근거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기