다중 배터리 부하 관리 위한 계획 기반 정책
초록
본 논문은 다중 배터리 시스템에서 변동 부하에 대응하기 위한 최적 스위칭 정책을 마르코프 결정 과정(MDP)으로 모델링하고, 결정론적 혼합 이산·연속 플래닝과 몬테카를로 샘플링을 결합한 학습 프레임워크를 제시한다. 시간 이산화와 비선형 연속 배터리 동역학을 정교히 다루어 99 % 이상의 효율을 달성하고, 실제 하드웨어 실험에서 5 %–15 %의 수명 연장을 검증한다.
상세 분석
이 논문은 다중 배터리 부하 관리 문제를 확률적 환경 하에서의 계획 문제로 재구성하고, 이를 마르코프 결정 과정(MDP)으로 공식화한다는 점에서 이론적 기여가 크다. 기존 연구들은 주로 정적 스케줄링이나 단순 히스테리시스 기반 스위칭에 머물렀으나, 저자는 배터리 전압·전류·잔량 등 연속적인 상태 변수를 포함한 비선형 동역학 모델을 도입한다. 이러한 모델은 배터리 내부 저항, 온도 의존성, 페이로드 변동 등을 실제 물리 법칙에 근거해 수식화했으며, 시간 축을 세밀히 이산화함으로써 연속‑이산 혼합 플래닝 문제를 해결 가능하게 만든다.
플래닝 단계에서는 deterministic mixed discrete‑continuous planner를 활용해 각 시간 단계에서 가능한 스위칭 액션(배터리 교체, 유지)을 탐색한다. 여기서 중요한 것은 “시간 이산화 해상도”를 동적으로 조정해 계산 복잡도를 억제하면서도 모델 정확도를 유지한다는 점이다. 이후 정책 학습 단계에서는 Monte Carlo 샘플링을 통해 다양한 부하 시나리오를 생성하고, 각 시나리오에 대해 최적 플래닝 결과를 라벨링한다. 이렇게 얻어진 (상태, 액션) 쌍을 지도 학습용 데이터셋으로 활용해 분류 모델(예: 결정 트리, SVM, 신경망 등)을 훈련한다. 분류 기반 정책은 실행 시 실시간으로 현재 배터리 상태를 입력받아 즉시 스위칭 결정을 내릴 수 있어, 온라인 적용에 적합하다.
실험 결과는 두 가지 축에서 평가된다. 첫째, 시뮬레이션 환경에서 제안 정책은 기존 휴리스틱(예: 가장 높은 전압 우선, 균등 사용) 및 최신 문헌에 보고된 최적화 기반 정책보다 0.5 %–1 % 높은 효율을 보이며, 스위칭 횟수는 30 % 이상 감소한다. 이는 배터리 내부 저항 상승과 사이클 피로를 최소화하는 효과를 의미한다. 둘째, 실제 하드웨어 테스트벤치(2 kWh 리튬이온 배터리 2개)에서 5 %–15 %의 수명 연장을 관측했으며, 이는 시뮬레이션-실제 간 모델 불일치를 보정하기 위해 캘리브레이션 단계와 온도 보정 파라미터를 도입한 결과이다.
핵심 인사이트는 (1) 연속‑이산 혼합 플래닝과 샘플링 기반 정책 학습을 결합하면 복잡한 비선형 시스템에서도 실시간 적용 가능한 고성능 정책을 도출할 수 있다, (2) 정책을 분류 문제로 전환함으로써 학습·추론 비용을 크게 낮출 수 있다, (3) 시간 이산화 해상도와 모델 캘리브레이션이 실제 적용 성공의 결정적 요소라는 점이다. 이러한 접근법은 배터리 관리 외에도 에너지 저장, 전력망 마이크로그리드, 로봇 전원 관리 등 연속 상태와 이산 제어가 공존하는 다양한 분야에 확장 가능하다.