가정용 에너지 관리에 딥 강화학습과 이종 배터리·EV 불확실성 적용
초록
본 논문은 가정 내 PV, ESS, 전기차(EV)를 동시에 최적 운용하기 위해, 배터리 종류별(정지형 LFP와 이동형 NMC) 노화 모델과 사용자의 EV 이용 패턴(도착·출발 시각·주행 거리)의 확률적 변동성을 고려한 제약 마코프 결정 과정(CMDP)을 설계한다. 라그랑주 기반 소프트 액터‑크리틱(Lagrangian SAC) 알고리즘을 이용해 전력 비용과 배터리 열화 비용을 최소화하면서 실내 온도와 EV 충전 요구를 만족시키는 정책을 학습한다. 시뮬레이션 결과, 기존 규칙 기반 방법 대비 운영 비용을 크게 절감하고 배터리 열화 비용을 8.44 % 감소시켰으며, 실내 온도 진동도 억제하였다.
상세 분석
이 연구는 가정용 에너지 관리 시스템(HEMS)의 복합성을 세 가지 측면에서 심층적으로 해석한다. 첫째, 배터리 열화 모델링에 있어 정지형 에너지 저장 시스템(ESS)은 리튬인산철(LFP) 전지를, 전기차(EV)는 니켈‑망간‑코발트(NMC) 전지를 사용한다는 가정 하에, 각각의 사이클 수명과 용량 감소 특성을 반영한 반경험식(capacity‑fade) 모델을 구축하였다. 이는 기존 연구가 단일 배터리 열화 계수를 적용해 실제 전해질·전극 차이에 따른 손실을 과소평가하는 문제를 보완한다. 둘째, EV 이용 행태를 확률적 변수로 모델링하였다. 스웨덴 국가 여행 조사 데이터를 기반으로 도착·출발 시각과 일일 주행 거리의 확률분포를 추정하고, 이를 매 시뮬레이션 단계에서 샘플링함으로써 정책이 다양한 사용자 행동에 대해 강인성을 갖도록 설계했다. 이러한 접근은 기존 연구가 고정된 스케줄을 가정해 실제 운용 시 발생하는 충전 불확실성을 무시하는 한계를 극복한다. 셋째, 제약 마코프 결정 과정(CMDP)과 라그랑주 소프트 액터‑크리틱(Lagrangian SAC) 알고리즘의 결합은 두드러진 기술적 기여를 제공한다. CMDP는 전력 구매·판매, 배터리 충·방전, 실내 온도 유지, EV 목표 SOC 등 물리적 제약을 상태·행동 공간에 명시적으로 포함시킨다. 라그랑주 승수는 학습 과정에서 자동으로 조정되어, 보상 함수에 고정된 페널티 가중치를 수동 튜닝할 필요 없이 제약 위반을 최소화한다. 또한 SAC의 엔트로피 정규화는 탐색 효율성을 높여 연속적인 제어 변수(충·방전 전력, HVAC 전력)를 다루는 데 적합하다. 실험에서는 1년(8760시간) 시계열 데이터를 사용해, 시간대별 전력 가격, PV 발전량, 외기·내기 온도 변동을 모두 고려하였다. 결과는 다음과 같다. (1) 총 운영 비용이 기존 룰‑베이스(시간‑대‑요금 기반) 대비 평균 12 % 이상 감소하였다. (2) 배터리 열화 비용이 8.44 % 감소했으며, 이는 특히 EV 배터리의 과도한 방전·충전 사이클을 억제한 효과로 해석된다. (3) 실내 온도 제어에서는 온도 진동 폭이 30 % 이하로 감소해, 거주자 열적 편안성을 크게 향상시켰다. (4) 정책은 EV가 비정상적으로 늦게 도착하거나 급히 떠나는 경우에도 목표 SOC를 만족시키는 등, 확률적 EV 행동에 대한 강인성을 입증했다. 전반적으로 이 논문은 배터리 이종성, 사용자 행동 불확실성, 물리적 제약을 동시에 고려한 DRL 기반 HEMS 설계가 실용적인 비용 절감과 시스템 안정성을 동시에 달성할 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기