데이터 기반 실시간 최적 경제 디스패치와 온도 조절을 위한 온라인 제어

본 논문은 온도 동역학에 경제적 최적조건을 내재화한 데이터‑드리븐 온라인 제어 프레임워크를 제시한다. DeePO와 ADAM을 결합한 정책 학습기를 통해 예측 없이도 실시간으로 최적 경제 디스패치와 온도 규제를 수행하며, 수렴 및 안정성 이론을 입증한다. 시뮬레이션 결과는 모델 불일치와 변동 수요에도 강인한 근접 최적 운전을 확인한다.

저자: Xinyi Yi, Ioannis Lestas

데이터 기반 실시간 최적 경제 디스패치와 온도 조절을 위한 온라인 제어
본 논문은 급격히 확대되고 있는 지역난방시스템(DHS)의 경제적 디스패치와 온도 조절을 동시에 달성하기 위한 새로운 데이터‑드리븐 온라인 제어 프레임워크를 제안한다. 기존의 대부분 연구는 정확한 수요 예측이나 사전 정의된 물리 모델에 의존해 최적화 문제를 해결한다. 그러나 실제 운영에서는 예측 오차와 모델 파라미터 변동이 빈번히 발생하여, 경제성 및 열품질이 크게 저하될 위험이 있다. 이러한 문제점을 인식하고, 저자들은 두 가지 핵심 아이디어를 결합한다. 첫 번째는 정적 최적화 문제(E1, E2)에서 도출된 KKT 조건을 온도 동역학에 직접 삽입해, 시스템 자체가 최적 균형점으로 수렴하도록 설계하는 것이다. 구체적으로, 열생산량 h_G 과 온도 T 의 관계를 행렬 C_T, D_T 로 정의하고, 오류 신호 eₖ = C_T xₖ + D_T uₖ 를 구성한다. 이 오류가 0에 수렴하면, 원래 DHS는 경제적으로 최적화된 열생산과 온도 프로파일을 동시에 만족한다는 정리를 제시한다. 두 번째 아이디어는 모델‑프리 정책 학습이다. 전통적인 LQR 설계는 정확한 시스템 행렬 A, B 가 필요하지만, DHS는 복잡한 열전달 및 흐름 특성으로 인해 정확한 모델링이 어렵다. 이를 해결하기 위해 Data‑Enabled Policy Optimization(DeePO)을 적용한다. DeePO는 실제 운영 데이터(단일 궤적)만을 이용해 정책 K 의 공분산 기반 대리 비용 함수를 추정하고, 이를 최소화하는 방향으로 정책을 업데이트한다. 그러나 DeePO는 잡음에 민감하고 수렴 속도가 느릴 수 있다. 따라서 저자들은 Adaptive Moment Estimation(ADAM) 옵티마이저를 도입해 1차·2차 모멘트를 적응적으로 조정함으로써 학습 효율을 크게 향상시킨다. ADAM‑강화 DeePO는 학습 초기에 큰 스텝 사이즈를 사용해 빠르게 근접해가며, 이후 모멘트 보정을 통해 진동을 억제하고 안정적인 수렴을 보장한다. 이론적 분석에서는 (i) augmented 시스템(7)의 제어 가능성 가정 하에, 안정적인 피드백 K 가 존재함을 보이고, (ii) 입력 uₖ 와 상태 xₖ 의 평균이 0에 수렴하면 원래 DHS가 최적 균형점 (T★, h_G★) 에 수렴한다는 수렴 정리를 제시한다. 또한, 잡음이 유계이고 공분산이 유한한 경우, 폐루프 상태는 평균 제곱 유계성을 만족하며, 수렴한 공분산은 외란 공분산에 비례한다는 안정성 특성을 증명한다. ADAM‑강화 DeePO에 대해서는 확률적 LQR 비용 함수에 대한 거의 확실한 수렴을 보장하는 새로운 정리를 제시한다. 이 정리는 기존 DeePO의 수렴 분석을 확장하여, 1차·2차 모멘트 업데이트가 포함된 경우에도 수렴 속도가 유지된다는 점을 강조한다. 시뮬레이션은 북부 중국의 실제 산업단지 DHS 모델을 기반으로 수행된다. 모델은 파이프라인, 저장 탱크, 열원·열부하 등 다양한 구성 요소를 포함하며, 고차원 상태(수백 차원)와 비선형 열손실을 고려한다. 실험 시나리오는 (1) 정적 모델 불일치(파라미터 오차 10 %), (2) 시간 변동 모델 불일치(파라미터가 시간에 따라 5 %~15 % 변동), (3) 예측 불가능한 급격한 수요 변동 및 외부 온도 급변을 포함한다. 비교 대상은 전통적인 MPC(예측 기반)와 고전 LQR(모델 기반)이다. 결과는 다음과 같다. 제안 방법은 평균 연료 비용을 기존 MPC 대비 약 8 % 절감하고, 온도 편차 RMS를 12 % 감소시켰다. 또한, 모델 불일치가 심해질수록 MPC의 성능이 급격히 저하되는 반면, 제안 방법은 안정적인 제어 성능을 유지하였다. 학습 단계에서는 ADAM‑강화 정책이 30 % 정도의 에피소드만에 수렴했으며, 초기 학습 단계에서도 시스템이 불안정해지는 현상이 거의 없었다. 결론적으로, 이 논문은 (1) 경제 최적성 조건을 물리적 온도 동역학에 통합한 새로운 제어 구조, (2) 데이터‑드리븐 정책 학습을 ADAM으로 가속화한 실시간 온라인 알고리즘, (3) 수렴·안정성 이론과 실증 시뮬레이션을 통한 강인성 검증이라는 세 축을 통해, 예측‑불확실성과 모델‑불일치에 강인한 차세대 DHS 운영 프레임워크를 제시한다. 향후 연구는 다중 에너지 시스템(전기·가스·열 복합)으로의 확장과, 실제 현장 시험을 통한 실시간 구현 검증을 목표로 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기