강화학습 기반 냉각 설비 공동 설계와 운영으로 최적 비용 HVAC 시스템 구현
초록
본 논문은 고정 용량 전기식 냉각기와 열에너지 저장(TES) 장치를 결합한 상업용 HVAC 시스템의 설계와 운영을 강화학습(DQN)으로 최적화한다. 30년 수명주기 비용을 최소화하기 위해 다양한 용량 조합을 평가하고, 전력 가격 변동과 냉방 수요의 불확실성을 고려한 최적 정책을 학습한다. 결과적으로 최적 용량은 냉각기 700 kW와 TES 1500 kWh로 도출된다.
상세 분석
이 연구는 HVAC 시스템의 설계‑운영 공동 최적화를 강화학습 프레임워크에 매핑함으로써 기존의 단순 용량 설계 방식과 차별화한다. 먼저, 고정된 냉각기·TES 용량을 전제로 시간별 냉방 부하와 전력 가격을 외생 변수로 하는 유한 시간 마코프 결정 과정(MDP)을 정의한다. 상태 변수는 현재 부하, TES 충전량, 전력 가격, 시간·일 인덱스, 가용 전원 종류 등 6차원으로 구성되어 실제 운영 환경을 충분히 반영한다. 행동은 냉각기의 부분 부하 비율(PLR)이며, 각 시간 단계마다 TES 충·방전 효율과 용량 제한을 고려한 실현 가능 영역을 마스크 형태로 제한한다. 이는 전통적인 DQN이 연속적인 행동 공간을 다루기 어려운 점을 보완하고, 물리적 제약 위반을 사전에 차단한다는 점에서 의미가 크다.
보상 함수는 전력 비용의 음수값에 손실 부하(냉방 미충족) 페널티 λ·ℓₖ을 추가한 형태다. λ는 손실 부하가 어느 상황에서도 전력 비용보다 크게 벌점이 부여되도록 설정되어, 학습 과정에서 에이전트가 미리 TES를 충전하거나 냉각기를 여유 있게 운전하도록 유도한다. 이렇게 설계된 보상은 실제 운영에서 손실 부하가 발생하지 않도록 하는 제약을 강화학습 수준에서 구현한다는 점에서 혁신적이다.
각 용량 조합에 대해 학습된 DQN 정책을 시뮬레이션하고 연간 전력 비용과 손실 부하 비율을 측정한다. 손실 부하가 0인 조합만을 후보군으로 삼아 30년 할인 현금 흐름(6% 할인율)과 연간 유지보수(자본비용의 2%를 5% 인플레이션 적용)까지 포함한 총 수명주기 비용(LCC)을 계산한다. 여기서 핵심은 “용량 비대칭”이다. 논문은 냉각기 용량 1 kW당 자본비용이 TES 용량 1 kWh 대비 약 4.3배 비싸다고 가정한다. 따라서 최적 설계는 최소한의 냉각기 용량으로도 전력 가격 변동을 활용해 TES에 충분히 저장·방전함으로써 전체 비용을 최소화하는 방향으로 수렴한다.
실험 결과, 700 kW 냉각기와 1500 kWh TES 조합이 LCC 최소점을 제공한다는 것이 확인되었다. 이 조합은 피크 부하를 완전히 충족시키지는 않지만, 저가 전력 시간대에 TES를 충전하고 고가 전력 시간대에 방전함으로써 연간 전력 비용을 크게 절감한다. 또한, 손실 부하가 전혀 발생하지 않아 시스템 신뢰성을 유지한다.
이 논문은 (1) 물리적 제약을 마스크된 행동 공간으로 구현한 DQN, (2) 손실 부하를 명시적 페널티로 포함한 보상 설계, (3) 설계‑운영 공동 최적화를 위한 LCC 기반 평가 프레임워크라는 세 가지 기술적 기여를 제공한다. 특히, 설계 단계에서 강화학습 정책을 미리 학습하고 이를 비용 모델에 직접 연결함으로써 전통적인 메타휴리스틱(GA, PSO 등)보다 더 현실적인 운영 시나리오를 반영한다는 점이 주목할 만하다. 향후 연구에서는 다중 건물·다중 에너지(전기·열) 시스템으로 확장하거나, 실시간 가격 예측과 결합한 온라인 학습으로 전력 시장의 변동성을 더욱 정밀히 활용할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기