전기차 충전소 수익 극대화를 위한 강화학습 알고리즘
** 본 논문은 재생에너지와 연계된 전기차 충전소의 운영을 최적화하기 위해 Q‑learning 기반의 온라인 강화학습 모델(SAEDS)을 제안한다. 시간대별 전력가격, 재생에너지 공급량, 차량 도착·이탈 패턴 등을 상태로 정의하고, 10%·전량 충전 두 가지 속도로 충전 결정을 내린다. 시뮬레이션 결과, 무작위 정책 대비 40 %~80 % 정도 수익이 증가함을 확인하였다. **
저자: Stoyan Dimitrov, Redouane Lguensat
**
본 논문은 재생에너지와 연계된 전기차(EV) 충전소의 수익을 극대화하기 위해 강화학습 기반의 온라인 의사결정 시스템인 SAEDS(Station Automated Electricity Distribution System)를 설계하고 평가한다. 연구 배경으로는 전기차 보급 확대에 따른 충전 수요 급증이 전력망에 미치는 부하와 전압 변동 문제를 지적하고, 충전소 운영 최적화가 필요함을 강조한다. 기존 연구에서는 주거용 수요반응이나 개별 가정의 스마트 충전을 Q‑learning으로 다루었으나, 충전소 전체를 하나의 ‘대형 가정’으로 모델링한 사례는 드물다.
논문은 먼저 강화학습 이론을 요약하고, Q‑learning의 기본 업데이트 식과 수렴 조건을 제시한다. 이어서 충전소 운영을 마코프 결정 과정(MDP)으로 모델링한다. 상태 Ω(t)는 현재 시각 t₁(1~24시간), 대기 차량 정보 USERS(t) (TTL, SOC, Type), 재생에너지 공급량 r(t), 전력시장 가격 p(t)으로 구성된다. 차량 도착은 비동질 포아송 프로세스로 모델링해 시간대별 평균 도착률 λₜ을 추정한다. 차량은 최대 M대까지 대기 가능하며, 동시에 k대만 충전 슬롯을 사용할 수 있다.
행동(u(t))은 각 차량에 대해 0(충전 안 함), 10% SOC 충전(일반 속도), 100%‑SOC 충전(고속) 중 하나를 선택하는 벡터이며, 동시에 k개 이하의 비제로 요소만 허용한다. SOC 업데이트는 S O C(t+1)=S O C(t)+u(t)로 단순히 충전량을 더하고, 충전이 완료된 차량은 SOC를 0으로 초기화한다. TTL은 1시간마다 감소하고, TTL이 0이 되면 차량이 떠난다.
보상 함수 Φ는 고객이 지불하는 금액과 전력 구매 비용의 차이로 정의된다. 고객 유형(Type)은 차량 초기 SOC에 대한 지불 의사를 나타내는 함수 f(x)로 모델링되며, 본 연구에서는 ‘rich’와 ‘medium’ 두 유형을 사용한다. f(x)는 초기 SOC가 0%일 때 최대 지불 금액(max)을 기준으로 하는 2차식(시그모이드 형태)으로, 충전량이 증가할수록 단위당 지불 금액이 감소한다. 전력 구매 비용은 현재 전력가격 p(t)와 구매량(∑u(t)−r(t))의 곱으로 계산한다.
Q‑learning은 하루를 하나의 에피소드, 한 시간을 하나의 스텝으로 설정한다. ε‑greedy 정책을 사용해 탐색과 활용을 조절하고, 학습률 βₖ와 탐색 확률 αₜ는 시간에 따라 선형 감소한다. 업데이트 식 Qₖ₊₁(Ω,u)= (1−βₖ)Qₖ(Ω,u)+βₖ
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기