자동화된 단변량 시계열 예측을 위한 회귀 트리와 앙상블

자동화된 단변량 시계열 예측을 위한 회귀 트리와 앙상블
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 회귀 트리와 그 앙상블(배깅, 랜덤 포레스트)을 이용해 자동화된 단변량 시계열 예측 방법을 제안한다. 자동 특성 선택, 트렌드와 계절성 처리 전략을 포함한 전체 파이프라인을 구현하고, M4 연간 데이터 23,000개에 대한 실험을 통해 전통적인 ARIMA·ETS와 경쟁력 있는 정확도를 보였다.

상세 분석

논문은 먼저 회귀 트리의 기본 원리를 간결히 정리하고, 이를 시계열에 적용하기 위한 자동 회귀(Auto‑Regressive) 프레임워크를 제시한다. 시계열을 고정된 차수의 라그(lag) 변수로 변환하고, 재귀적 예측(recursive forecasting) 방식을 채택함으로써 다단계(h‑step) 예측을 구현한다. 회귀 트리는 비선형 구간을 자동으로 탐지하고, 각 구간에 대한 평균값을 예측값으로 사용한다는 점에서 전통적인 선형 모델과 차별화된다. 그러나 트리 자체는 평균값 범위 밖의 값을 생성하지 못하므로, 트렌드가 존재하는 시계열에 대해서는 별도의 변환이 필요하다. 이를 위해 논문은 차분(differencing), 가법 변환(additive transformation), 승법 변환(multiplicative transformation) 세 가지 전략을 제안한다. 차분은 시계열을 정상화(stationary)시켜 트렌드 성분을 제거하고, 변환 후 예측값을 역변환(back‑transform)한다. 가법 변환은 각 목표값에서 해당 라그 벡터의 평균을 빼는 방식으로 레벨(level) 효과를 억제하고, 승법 변환은 비율(ratio) 형태로 트렌드가 지수적일 때 유용하다. 특히 가법 변환은 라그가 다수일 때 라그 자체도 평균으로 정규화해 특성 공간에서 레벨 차이가 모델 학습을 방해하지 않도록 설계되었다.

계절성 처리 측면에서는 라그 선택을 통해 계절 주기의 정보를 직접 특성으로 포함한다. 예시로 제시된 인공 분기 시계열은 라그 1만으로도 계절 패턴을 정확히 포착했으며, 회귀 트리의 규칙 기반 구조가 계절 구간을 명확히 구분한다는 점을 보여준다.

앙상블 기법으로는 배깅과 랜덤 포레스트를 도입한다. 배깅은 부트스트랩 샘플링을 통해 다수의 깊은 트리를 학습하고 평균을 취함으로써 개별 트리의 고분산을 감소시킨다. 랜덤 포레스트는 추가로 각 분할 시 무작위 특성 서브셋을 선택해 트리 간 상관성을 낮추어 더욱 견고한 예측을 제공한다. 두 방법 모두 기본 하이퍼파라미터(예: 트리 수, 최대 깊이)를 그대로 사용해도 좋은 성능을 보이며, 자동화된 파이프라인에 적합하다.

실험에서는 M4 대회에서 제공된 연간 시계열 23,000개를 대상으로 MASE(Mean Absolute Scaled Error) 지표를 사용해 비교했다. 결과는 가법 변환(특성 및 목표 모두) 적용 시 평균 MASE 3.387, 중앙값 2.468로 가장 우수했으며, 차분 방법도 평균 4.020, 중앙값 2.667으로 괜찮은 성능을 보였다. 반면 변환 없이 그대로 적용하면 평균 MASE 7.902로 크게 악화된다. 이는 트렌드와 레벨 차이가 큰 시계열에 변환 전처리가 필수적임을 실증한다.

마지막으로 논문은 CRAN에 공개된 R 패키지를 제공한다. 패키지는 라그 선택, 변환 옵션, 앙상블 모델 선택 등을 함수 인자로 지정할 수 있게 설계돼, 사용자는 최소한의 코드만으로 전체 워크플로우를 실행할 수 있다. 전체적인 기여는 (1) 회귀 트리를 시계열에 적용하는 구체적 절차, (2) 트렌드·계절성 처리 전략, (3) 자동화된 앙상블 구현, (4) 공개 소프트웨어 제공이라는 네 축으로 요약된다.


댓글 및 학술 토론

Loading comments...

의견 남기기