GEFCOM 2014 전력가격 확률예측: ARMAX와 Gradient Boosting 비교

본 연구는 2014년 Global Energy Forecasting Competition(GEFCOM)에서 제공된 전력가격 데이터를 활용해, 전통적인 통계 모델인 ARMAX와 최신 머신러닝 기법인 Gradient Boosting Regression(GBR)을 비교 분석한다. 서론에서는 전력시장의 복잡성, 가격 변동성, 그리고 정확한 단기 예측이 생산자·소비자·시스템 운영자에게 미치는 경제적 가치를 강조한다. 특히, GEFCOM 2014가 확률예측을 요구함에 따라 기존 점예측 방법을 재검토하고, 두 모델의 성능을 객관적으로 평가하고자 한다. 방법론 파트에서는 먼저 ARMAX 모델을 소개한다. ARMAX는 ARMA(p,q) 구조에 외생 변수 X를 선형 결합한 형태로, 시계열의 자기상관(AR)과 이동 평균(MA) 요소를 동시에 고려한다. 논문에서는 p와 q를 최소화하면서도 충분한 설명력을 확보하도록 설정하고, Statsmodels 라이브러리의 최소제곱 추정 방식을 이용해 파라미터를 학습한다. 다음으로 GBR에 대한 설명이 이어진다. GBR은 약한 회귀 트리를 순차적으로 추가해 전체 모델을 부스팅하는 방식으로, 각 단계에서 현재 잔차에 대한 음의 그래디언트를 최소화하도록 트리를 학습한다. Scikit‑learn 구현을 사용했으며, 손실 함수는 MSE로 설정했다. GBR의 장점으로는 비선형 관계 자동 포착, 변수 선택, 다중공선성 완화, 과적합 방지를 위한 정규화 옵션 등을 들었다. 데이터 설명에서는 2011~2013년 3년간 시간당 전력가격과 두 개의 외생 변수(예측된 지역 부하와 전체 부하)를 제공한다는 점을 강조한다. 기본 통계량과 히스토그램을 통해 가격이 좌측으로 치우친 분포를 보이며, 로그 변환을 통해 정규성에 근접하도록 전처리하였다. 또한, 시간·날짜 파생 변수(요일, 월, 시간 등)와 과거 24·48시간 값, 차분 변수(t‑z, t‑t24 등)를 추가해 총 15개의 피처를 구성하였다. 상관관계 분석 결과 부하 변수 간 상관은 0.97로 매우 높으며, 가격과 부하 간 상관은 0.5~0.58 수준으로 중간 정도임을 확인했다. 실험 설계는 2013년 전체 데이터를 30일 롤링 윈도우 방식으로 학습하고, 다음 날 24시간을 테스트하는 형태다. ARMAX는 수렴 실패가 발생한 일부 일자를 제외해 총 347일을 평가에 사용하였다. 두 모델 모두 MAE와 RMSE를 지표로 삼았으며, GBR은 MSE를 직접 최소화하도록 학습했다. 결과는 GBR이 평균 MAE 7.13, RMSE 8.50을 기록해 ARMAX(MAE 8.64, RMSE 10.40)보다 약 20% 낮은 오류를 보였다. 또한, 오류 상위·하위 5%를 제외한 후 t‑검정(t=2.3187, p=0.0208)으로도 두 모델 간 차이가 통계적으로 유의함을 확인했다. 변수 중요도 분석에서는 시간(hour)이 가장 큰 영향을 미쳤으며, 로그 변환된 차분 변수(tzdif, tdif, zdif)와 과거 부하 값(tM24, zM48 등)도 높은 중요도를 보였다. 결론에서는 GBR이 전력가격 점예측에서 ARMAX보다 우수한 성능을 보였으며, 다중 모델 접근법이 효과적임을 강조한다. 또한, 확률예측을 위한 추가 연구 필요성을 언급하고, 더 긴 학습 윈도우, 베이지안 부스팅, 딥러닝 기반 시계열 모델, 그리고 다양한 지역·시장 데이터에 대한 일반화 검증이 향후 과제로 제시된다.

GEFCOM 2014 전력가격 확률예측: ARMAX와 Gradient Boosting 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기