신경망 기반 모델 예측을 활용한 건물 HVAC 스케줄링 강화학습
초록
본 논문은 건물 HVAC 시스템의 에너지 절감을 위해 신경망으로 학습한 시스템 동역학을 활용한 모델 기반 강화학습(MBRL) 프레임워크를 제안한다. 학습된 모델을 이용해 모델 예측 제어(MPC)를 수행하고, 안전한 탐색을 위해 행동 범위와 변화량을 사전 지식으로 제한한다. EnergyPlus 시뮬레이션 기반 2구역 데이터센터 실험에서 학습된 모델의 평균 궤적 오차가 20% 이하이며, 기존 방법 대비 17.1%~21.8% 에너지 절감, 모델‑프리 강화학습 대비 학습 단계 10배 감소를 달성하였다.
상세 분석
이 연구는 건물 HVAC 제어라는 복합적인 비선형 시스템에 대해 두 가지 핵심 문제—샘플 효율성 부족과 안전한 탐색 어려움—를 동시에 해결하려는 시도로 평가할 수 있다. 기존 모델‑프리 강화학습(DQN, PPO 등)은 환경과의 직접적인 상호작용을 통해 정책을 학습하지만, HVAC와 같이 연속적인 제어 변수와 엄격한 온도·습도 제약을 가진 시스템에서는 대규모 데이터 수집이 현실적으로 불가능하다. 따라서 저자는 시스템 동역학을 신경망으로 근사하고, 이를 기반으로 모델 예측 제어(MPC)를 수행하는 모델 기반 강화학습(MBRL) 구조를 채택하였다.
신경망 모델은 관측값(공급공기 온도, 실내 온도, 습도)과 제어 입력(팬 속도, 냉수 흐름)을 입력으로 받아 다음 시점의 관측을 예측한다. 여기서 중요한 점은 ‘Δo = o(t+1) – o(t)’ 형태의 차분 학습을 통해 학습 안정성을 높이고, 과거 W 단계의 시계열 데이터를 윈도우 형태로 제공함으로써 부분 관측 마코프 결정 과정(POMDP) 가정을 만족시켰다는 것이다. 모델 정확도는 EnergyPlus 시뮬레이션을 통한 실제 물리 기반 시뮬레이터와 비교했을 때 평균 오차가 20% 미만으로, 제어 수준에서 충분히 활용 가능함을 입증한다.
MPC 단계에서는 학습된 모델을 사용해 랜덤 샘플링 슈팅(random‑sampling shooting) 기법으로 후보 행동 시퀀스를 생성하고, 에너지 비용과 온도·습도 위반 페널티를 포함한 비용 함수를 최소화한다. 안전 탐색을 위해 행동의 절대값과 변화량을 사전 정의된 안전 구간 내로 제한했으며, 이는 실제 설비에 적용할 때 발생할 수 있는 급격한 제어 변동에 따른 장비 손상을 방지한다. 또한, 실시간 제어 요구를 충족시키기 위해 MPC 결과를 모방하는 보조 정책 네트워크를 학습시켜, 온라인 추론 시 MPC 계산 비용을 크게 절감한다.
실험은 EnergyPlus 기반 2구역 데이터센터 시나리오에서 수행되었다. 비교 대상으로는 전통적인 PID·규칙 기반 제어, LQR 기반 모델 기반 제어, 그리고 모델‑프리 PPO 기반 강화학습이 포함되었다. 결과는 제안된 MBRL이 에너지 소비를 17.1%~21.8% 절감하고, PPO 대비 학습 단계가 약 10배 적게 소요된다는 점에서 현존 방법들을 크게 앞선다. 특히, 모델‑프리 방법이 요구하는 대규모 탐색 데이터가 현실적인 건물 운영 환경에서는 거의 불가능함을 감안하면, 제안된 접근법은 실용적인 적용 가능성을 크게 높인다.
이 논문의 주요 기여는 다음과 같다. (1) HVAC 제어에 있어 모델‑프리 강화학습의 샘플 비효율성을 체계적으로 분석하고, 데이터 효율성을 강조한다. (2) 온라인으로 시스템 동역학을 신경망으로 학습하는 모델‑기반 강화학습 프레임워크를 제시한다. (3) 학습된 모델을 활용한 MPC와 랜덤 샘플링 슈팅을 결합해 제약을 만족하는 최적 제어를 수행한다. (4) 실시간 제어를 위한 정책 모방 네트워크를 도입해 계산 부하를 감소시킨다. (5) EnergyPlus 시뮬레이션을 통한 실증 실험으로 에너지 절감 효과와 학습 효율성을 입증한다.
전반적으로, 본 연구는 데이터 중심의 동역학 학습과 전통적인 최적 제어 기법을 융합함으로써, 건물 에너지 관리 분야에서 모델‑프리 강화학습이 갖는 한계를 극복하고, 실제 적용 가능한 고효율 HVAC 스케줄링 솔루션을 제시한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기