패널 데이터의 반사실 예측을 위한 동적 요인 모델링
초록
본 논문은 결측이 존재하고 잠재 요인이 시간에 따라 상관관계를 갖는 패널 데이터에서 미래의 반사실 결과를 예측하는 방법을 제안한다. 기존 행렬 완성 기법에 시계열 동역학을 결합한 FOCUS(Forecasting Counterfactuals under Stochastic dynamics) 알고리즘을 개발하고, VAR(1) 형태의 요인 모델을 가정하여 이론적 오류 경계와 점근적 정규성을 증명한다. 시뮬레이션과 모바일 건강 데이터(HeartSteps) 실험을 통해 제안 방법이 기존 벤치마크보다 높은 예측 정확도와 계산 효율성을 보임을 확인한다.
상세 분석
FOCUS는 두 단계로 구성된다. 첫 번째 단계에서는 관측된 처리 혹은 대조 패널을 이용해 결측을 마스크하고, Xiong & Pelger(2023)의 PCA 기반 방법으로 잠재 요인 Fₜ와 로딩 Λᵢ를 일관적으로 추정한다. 이때 각 시점 쌍(s, t)마다 동시에 관측된 단위 집합 Qₛ,ₜ를 정의하고, 이를 이용해 공분산 행렬 Σ̂을 구성해 고유벡터를 추출한다. 두 번째 단계에서는 추정된 요인 시계열에 대해 OLS로 VAR(1) 계수 Â를 추정하고, Â의 h제곱을 통해 미래 요인 F_{T+h}의 최적 선형 예측값을 구한다. 최종 예측값 θ̂_{i,T:T+h}=Λ̂ᵢᵀ Â^{h} F̂_T는 잠재 요인의 동적 구조를 직접 활용함으로써 기존 정적 저‑랭크 행렬 완성 방식보다 미래 결측값을 더 정확히 복원한다.
이론적 분석에서는 요인 잡음 ηₜ가 4차 모멘트를 만족하고, 로딩이 i.i.d. 평균 0, 양정 정의 공분산을 갖는다는 가정 하에, PCA 추정치가 √N 또는 √T 수렴률을 보임을 증명한다. 특히 VAR(1) 가정과 관측 패턴이 충분히 풍부할 경우, θ̂_{i,T:T+h}의 오차는 O_p(1/√N + 1/√T) 수준이며, 중심극한정리를 적용해 점근적 정규성을 확보한다. 이는 기존 동적 요인 모델이 제한된 결측 비율만 허용하던 점을 확장한 것으로, 관측 행렬이 매우 희소해도 일관적인 추정이 가능함을 의미한다.
실험에서는 (1) 요인이 순수 AR 구조를 가질 때와 (2) 요인이 잡음이 큰 혼합 구조를 가질 때 두 시나리오를 설정했다. FOCUS는 mSSA와 SyNBEA‑TS에 비해 평균 제곱 오차가 10‑20% 감소했으며, 특히 장기 예측(h ≥ 5)에서 차이가 크게 나타났다. 계산 시간 측면에서도 PCA‑VAR 파이프라인은 O(NT) 복잡도를 유지해 대규모 T(수천)에서도 실시간 적용이 가능했다.
HeartSteps 모바일 건강 데이터에서는 사용자별 일일 걸음 수가 시간 슬롯 간에 음의 상관을 보이는 패턴을 확인했고, 이를 요인 수준에서 모델링함으로써 치료(프롬프트)와 대조 상황의 미래 걸음 수를 정밀히 예측했다. FOCUS는 기존 방법보다 평균 절대 오차가 0.12 step(표준화된 단위) 낮았으며, 이는 개인 맞춤형 행동 개입 정책 설계에 직접 활용될 수 있다.
전체적으로 본 연구는 (i) 결측이 다량 존재하는 패널에서 동적 요인 추정을 일관적으로 수행하고, (ii) 추정된 요인에 시계열 모델을 적용해 미래 반사실 결과를 정확히 예측하며, (iii) 이론적 오류 경계와 점근적 정규성을 제공함으로써 실무와 학술 양쪽에서 신뢰할 수 있는 도구를 제공한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기