단변량 시계열 결측값 보간 방법 비교 R

단변량 시계열 결측값 보간 방법 비교 R

초록

본 논문은 R 환경에서 제공되는 다양한 단변량 시계열 결측값 보간 함수들을 체계적으로 정리하고, 네 가지 결측 비율을 적용한 실험을 통해 성능을 비교한다. 실험 결과, zoo 패키지의 계절적 칼만 필터 기반 보간과 forecast 패키지의 계절적 loess 분해 후 선형 보간이 대부분의 시나리오에서 가장 우수한 정확도를 보였다.

상세 분석

본 연구는 단변량 시계열 데이터의 결측값 처리에 특화된 R 패키지와 함수들을 상세히 조사하고, 실제 데이터에 적용했을 때의 성능 차이를 정량적으로 평가한다. 먼저, 기존의 다변량 결측값 보간 기법이 시계열의 시간적 의존성을 충분히 활용하지 못한다는 점을 지적하고, 단변량 상황에 맞는 알고리즘의 필요성을 강조한다. 이를 위해 zoo, forecast, imputeTS, tsibble 등 주요 패키지에서 제공하는 보간 방법을 총 12가지 선정하였다. 각 방법은 크게(1) 단순 선형·다항 보간, (2) 이동 평균·지수 평활, (3) 계절적 분해 후 보간, (4) 칼만 필터 기반 상태공간 모델, (5) 머신러닝 기반 예측 모델 등으로 분류된다.

실험 설계는 다음과 같다. 실제 월별 경제·기후 시계열 5종을 선택하고, 각각에 대해 결측 비율을 10 %, 20 %, 30 %, 40 %로 인위적으로 삽입한다. 결측값 삽입은 완전 무작위(MCAR)와 시계열 연속 구간(MAR) 두 가지 패턴을 모두 고려한다. 평가 지표는 평균절대오차(MAE), 평균제곱근오차(RMSE), 그리고 시계열 특성을 보존하는지 확인하기 위한 상관계수와 주기성 유지율을 사용한다.

결과 분석에서 가장 눈에 띈 점은 계절성을 명시적으로 모델링한 방법들이 일관되게 높은 정확도를 기록했다는 것이다. 특히 zoo 패키지의 na.kalman 함수는 상태공간 모델에 계절적 구성요소를 포함시켜, 결측 구간이 길어질수록 오차가 급격히 증가하는 현상을 억제한다. forecast 패키지의 na.seasonal은 STL(Seasonal‑Trend decomposition using Loess) 기반으로 트렌드와 계절성을 분리한 뒤 선형 보간을 적용하는데, 이 과정에서 트렌드 변동을 과도하게 평활화하지 않아 원본 시계열의 변동성을 잘 보존한다. 반면, 단순 선형 보간이나 이동 평균 기반 방법은 결측 구간이 커질수록 급격히 성능이 저하되었으며, 특히 비계절성 데이터에서는 과적합 위험이 있다.

또한, imputeTS 패키지의 na.interpolation은 다양한 보간 옵션을 제공하지만, 기본 설정이 비계절적 선형 보간이므로 계절성이 강한 데이터에서는 성능이 떨어진다. 머신러닝 기반 예측(예: randomForest)도 구현 가능했지만, 학습 데이터가 충분히 확보되지 않은 경우 오히려 오버피팅이 발생해 MAE가 상승했다.

결과적으로, 단변량 시계열 결측값 보간에서는 (1) 계절성을 명시적으로 고려한 모델, (2) 상태공간 기반 칼만 필터, (3) STL‑분해 후 선형 보간이 가장 안정적이며, 데이터 특성(계절성 유무, 결측 패턴)에 따라 적절히 선택하는 것이 중요함을 확인하였다.