태양광 발전 예측을 위한 랜덤 포레스트 기반 서포트 벡터 회귀 앙상블
초록
본 연구는 서포트 벡터 회귀(SVR) 모델 여러 개가 생성한 일일 태양광 발전량 예측값과 기상 데이터(일사량, 온도 등)를 입력으로 사용해 랜덤 포레스트(RF)로 앙상블을 구성한다. RF는 과거·현재 예측값과 기상 변수를 동시에 학습해 최적의 가중치를 자동으로 부여함으로써 단일 SVR 혹은 전통적인 평균·가중 평균 방식보다 높은 정확도를 달성한다. 연간 데이터를 대상으로 MAE·RMSE 등 3가지 지표에서 평균 5~8 % 정도의 오차 감소를 확인하였다.
상세 분석
본 논문은 두 단계의 머신러닝 파이프라인을 설계한다. 첫 번째 단계에서는 동일한 데이터셋에 대해 서로 다른 커널(선형, RBF, 다항식)과 하이퍼파라미터(C, ε, γ)를 적용한 SVR 모델 N개를 독립적으로 학습시킨다. 각 SVR는 일일(24 시간) 단위의 태양광 발전량을 예측하며, 입력 변수는 전일 발전량, 일사량, 구름량, 온도, 습도 등 전형적인 기상 요인을 포함한다. 두 번째 단계에서는 이 N개의 예측값과 원본 기상 변수들을 피처로 사용해 랜덤 포레스트 회귀 모델을 학습한다. 랜덤 포레스트는 다수의 결정트리를 부스팅 없이 배깅 방식으로 구축하고, 각 트리는 무작위로 선택된 피처 서브셋과 샘플 서브셋을 이용해 학습한다. 이 구조는 다음과 같은 장점을 제공한다. 첫째, 개별 SVR이 포착하지 못한 비선형 상호작용을 트리 기반 모델이 보완한다. 둘째, 피처 중요도 분석을 통해 어느 기상 변수와 어느 시점의 예측값이 최종 결과에 가장 크게 기여하는지 정량적으로 파악할 수 있다. 셋째, 과적합 방지를 위해 트리 수와 최대 깊이, 최소 샘플 분할 수 등을 교차 검증으로 최적화하였다.
성능 평가에서는 연간 365일의 일일 예측을 대상으로 MAE, RMSE, MAPE 세 가지 지표를 산출하였다. 베이스라인으로는 단순 평균(Mean), 가중 평균(Weighted Mean), 그리고 베이지안 모델 평균(BMA)을 적용했으며, 모든 베이스라인 대비 RF‑SVR 앙상블이 평균 MAE 5.3 %, RMSE 6.8 % 개선을 보였다. 특히 구름량 변동이 큰 여름철에 RF가 SVR의 편향을 효과적으로 보정해 예측 오차를 크게 줄인 것이 눈에 띈다.
한계점으로는 첫 단계의 SVR 모델 수가 증가할수록 학습 및 추론 비용이 선형적으로 상승한다는 점이다. 또한, RF가 내부적으로 비선형 결정을 수행하지만, 피처 간 상관관계가 매우 높을 경우 변수 중요도가 분산되어 해석이 어려워질 수 있다. 향후 연구에서는 경량화된 앙상블(예: Gradient Boosting)이나 딥러닝 기반 메타 모델을 도입해 실시간 운영 환경에 적용 가능한 구조를 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기