시간열 결측치 추정을 위한 필터링 기반 ARIMA 모델링

시간열 결측치 추정을 위한 필터링 기반 ARIMA 모델링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 필터링 과정을 이용해 결측치를 추정하고, 이를 Box‑Jenkins 방법으로 구축한 ARIMA(1,0,0)(0,1,1)_s 모델에 적용하여 말레이시아 케팔라 바타스 지역의 월 평균 강우량을 예측한다. 완전 데이터와 인위적으로 결측을 만든 데이터 모두에 대해 Thiel U 통계량을 계산했으며, U=0.72086(완전)와 U=0.726352(결측)로 모델의 예측력이 우수함을 확인하였다.

상세 분석

이 논문은 시계열 데이터에서 결측값을 처리하는 새로운 접근법을 제시한다. 기존의 단순 대체법(평균, 선형 보간 등)은 시계열의 자기상관 구조를 무시하는 경우가 많아 예측 정확도가 떨어진다. 저자는 먼저 “필터링 과정”이라 명명한 사전 처리 단계에서, 기존 관측값에 가중 평균 필터를 적용해 결측 구간을 보정한다. 이때 사용된 필터는 이동 평균(MA) 형태이며, 결측 구간 전후의 관측값을 가중치로 활용해 결측치를 추정한다. 필터링 후에는 전통적인 Box‑Jenkins 절차에 따라 차분, ACF/PACF 분석을 수행하고, 최적 ARIMA 구조를 탐색한다.

연구에 사용된 데이터는 1969년 1월 1일부터 1997년 12월 31일까지 29년간의 월별 강우량(총 348개 관측치)이며, 실제 결측값이 없는 완전 데이터와 무작위로 10% 정도의 결측을 삽입한 인위적 결측 데이터 두 가지 시나리오를 만든다. 두 데이터 모두 동일한 ARIMA(1,0,0)(0,1,1)_s 모델이 적합되었으며, 여기서 s=12는 연계성을 반영한다.

모델 적합도 평가는 Thiel’s U 통계량을 사용하였다. U값이 0에 가까울수록 예측이 실제값에 근접함을 의미한다. 완전 데이터에서 U=0.72086, 결측 데이터에서 U=0.726352로 차이가 미미하여, 필터링 기반 결측치 추정이 모델 성능에 큰 영향을 미치지 않음을 보여준다. 이는 제안된 방법이 시계열의 계절성 및 비정상성을 유지하면서도 결측 구간을 효과적으로 복원한다는 강점을 시사한다.

또한, 저자는 모델 진단 단계에서 잔차의 정규성, 독립성, 등분산성을 검증했으며, Ljung‑Box 검정 결과 p>0.05로 잔차가 백색 잡음임을 확인했다. 이는 선택된 ARIMA 구조가 데이터의 내재적 패턴을 충분히 포착했음을 의미한다.

한계점으로는 필터링 과정에서 가중치 선택이 경험적이며, 다른 필터(예: Kalman 필터, 웨이브릿 변환)와의 비교가 부족하다는 점이다. 또한, 결측 비율이 10% 이하일 때만 성능이 유지된다는 가정이 있으므로, 높은 결측률 상황에서의 적용 가능성은 추가 검증이 필요하다.

전반적으로 이 연구는 결측치가 존재하는 시계열 데이터에 대해 간단하면서도 효과적인 전처리 방법을 제공하고, 기존 ARIMA 모델링 흐름을 크게 변경하지 않으면서도 예측 정확도를 유지할 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기