극한 상황 전력 정전 예측: 날씨·사회경제·인프라 통합 머신러닝 모델
초록
본 논문은 2014‑2024년 미시간 주 전력 정전 기록(EAGLE‑I)과 기상·사회경제·인프라 데이터를 결합해, 고위험·저확률(HILP) 정전 사건을 예측하는 프레임워크를 제시한다. 결측치 보완에 K‑Nearest Neighbors, 데이터 불균형 완화에 SMOGN을 적용하고, Random Forest, Graph Neural Network, AdaBoost, LSTM 네 가지 모델을 비교하였다. 대규모 카운티 수준 데이터셋 실험 결과, 시계열 특성을 잘 포착하는 LSTM이 가장 높은 정확도를 기록하였다.
상세 분석
이 연구는 전력 시스템 복원력 평가에 있어 기존 통계 모델이 갖는 선형 가정의 한계를 극복하고자, 비선형 상호작용을 포괄적으로 학습할 수 있는 머신러닝·딥러닝 접근법을 채택하였다. 데이터는 크게 네 가지 축으로 구성된다. 첫째, EAGLE‑I에서 추출한 10년간의 고객 정전 수치(15분 간격)로, 정전 규모와 발생 시점을 정량화한다. 둘째, Open‑Meteo API를 통해 수집한 8가지 기상 변수(기온, 강수량, 풍속·풍돌풍, 단파 복사, 습도, 구름량, 기압)를 시간별로 정제했으며, 결측값은 인접 카운티의 지리적 거리 기반 KNN 평균값으로 보완하였다. 셋째, 미국 인구조사국 ACS 5‑Year Estimates에서 추출한 평균 가구 소득, 실업률, 주거 연령 분포 등 사회경제 지표를 포함시켜 지역 사회의 취약성을 정량화했다. 넷째, OpenStreetMap에서 파생한 전력 설비(전봇대, 변압기, 송전선 등) 수치를 정규화하여 인프라 밀도를 반영하였다.
데이터 전처리 단계에서는 정전 규모가 상위 30%에 해당하는 경우를 ‘고위험(HILP)’ 레이블로 정의하고, 이를 기반으로 시계열 유사도(표준화된 기상 특성의 유클리드 거리)를 활용해 계절적·기상적 유사 기간을 추가 선정함으로써 학습 샘플을 확대하였다. 불균형 문제는 SMOGN(Synthetic Minority Over‑sampling for Regression) 기법을 변형해 고위험 사례를 과샘플링하고, 저위험 사례는 언더샘플링하는 이중 전략으로 해결하였다.
모델링 측면에서 Random Forest와 AdaBoost는 전통적인 앙상블 트리 기반 회귀기로, 변수 중요도 해석이 용이하지만 시계열 의존성을 충분히 반영하지 못한다. Graph Neural Network는 카운티 간 인프라·사회경제 연결성을 그래프 구조로 모델링했으나, 그래프 구축에 필요한 정밀 토폴로지 데이터가 부족해 성능이 제한적이었다. LSTM은 시간 축을 따라 연속적인 기상·정전 변화를 학습함으로써, 특히 급격한 기상 변동이 정전으로 이어지는 패턴을 효과적으로 포착했다. 실험 결과, LSTM이 MAE, RMSE, R² 등 모든 평가 지표에서 다른 모델을 앞섰으며, 특히 고위험 구간에서의 예측 오차 감소가 두드러졌다.
이 논문의 주요 공헌은 (1) 정전·기상·사회경제·인프라 데이터를 통합한 다중 모달 데이터 파이프라인 구축, (2) 회귀 문제에 맞춘 SMOGN 적용을 통한 데이터 불균형 완화, (3) 다양한 머신러닝·딥러닝 모델을 동일 데이터셋에 적용해 성능 비교, (4) 미시간 하부반도 20개 카운티를 대상으로 한 대규모 실증 검증이다. 한계점으로는 (①) 전력망 토폴로지의 상세 정보 부재로 그래프 기반 모델의 잠재력을 충분히 활용하지 못함, (②) SMOGN이 합성 샘플의 실제 물리적 의미를 보장하지 못해 과적합 위험이 존재함, (③) 모델 해석성을 강화하기 위한 SHAP·LIME 등 설명 기법이 미흡함을 들 수 있다. 향후 연구에서는 고해상도 GIS 전력망 데이터와 실시간 SCADA 스트림을 결합해 그래프 딥러닝을 고도화하고, 설명 가능한 AI 기법을 도입해 정책 입안자가 신뢰할 수 있는 의사결정 지원 도구로 확장할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기