비정규동시자기회귀 모델의 베이지안 추정과 결측 데이터 처리
초록
본 논문은 공간오차모델(SEM)을 확장하여 Student‑t 오류와 Yeo‑Johnson 변환을 도입한 비정규 SAR 모델을 제안하고, 변분베이지안(VB) 및 하이브리드 변분베이지안(HVB) 알고리즘을 통해 완전 데이터와 MNAR 결측 데이터를 효율적으로 추정한다. 시뮬레이션과 실제 데이터 분석을 통해 제안 방법의 정확도와 계산 효율성을 입증한다.
상세 분석
이 연구는 전통적인 동시자기회귀(SAR) 모델이 가정하는 정규오차의 한계를 극복하기 위해 세 가지 비정규 SEM을 설계한다. 첫 번째는 오류항을 Student‑t 분포로 모델링하여 무거운 꼬리를 포착하고, 두 번째는 Yeo‑Johnson(YJ) 변환을 적용해 응답 변수의 비대칭성을 교정한다. 세 번째는 두 접근을 결합해 동시에 꼬리와 비대칭을 다룰 수 있는 복합 모델을 만든다. 이러한 모델들은 모두 동일한 구조식 y* = Xβ + (I − ρW)⁻¹e를 기반으로 하며, e의 분포만이 달라진다. t‑오류는 스케일 혼합 정규표현을 이용해 τ라는 잠재 변수를 도입함으로써 변분 추정이 가능하도록 변형한다. YJ 변환은 각 관측값에 비선형 함수를 적용하고, 변환의 Jacobian을 로그우도에 추가함으로써 정확한 확률밀도 함수를 유지한다.
결측 데이터가 MNAR(Missing Not At Random) 메커니즘을 따를 때, 단순히 관측된 부분만 모델링하면 편향이 발생한다. 저자들은 선택 모델(selection model) 접근을 채택해 p(y,m | ξ,ψ) = p(m | y,ψ) p(y | ξ) 로 결합 확률을 분해하고, ψ는 결측 확률을 설명하는 로지스틱 회귀 파라미터이다. 이를 통해 결측값 y_u와 파라미터(ξ,ψ)의 사후분포를 공동으로 추정한다.
변분 베이지안(VB) 프레임워크는 복잡한 후방분포를 평균‑필드(mean‑field) 근사로 단순화한다. 완전 데이터 경우, 표준 VB는 각 파라미터에 대한 업데이트 식을 닫힌 형태로 제공해 빠른 수렴을 보인다. 그러나 MNAR 상황에서는 결측값 y_u가 잠재 변수로 남아 있어 표준 VB만으로는 충분하지 않다. 따라서 저자들은 하이브리드 변분베이지안(HVB) 알고리즘을 제안한다. HVB는 MCMC 샘플러를 이용해 y_u를 주기적으로 재샘플링하고, 그 외 파라미터는 VB 업데이트를 수행한다. 이 혼합 전략은 MCMC의 정확성을 유지하면서도 전체 파라미터 공간에 대한 변분 근사를 통해 계산량을 크게 감소시킨다.
시뮬레이션에서는 n = 625, 결측 비율 50%인 상황에서 HVB가 Stan의 Hamiltonian Monte Carlo(HMC)보다 10배 이상 빠르면서도 추정 정확도는 거의 동일함을 보여준다. 또한, 데이터 규모가 10,000 이상으로 확대될 때 HMC은 실용적이지 않지만 HVB는 여전히 수분 내에 수렴한다. 실제 데이터 분석에서는 환경학적 공간 데이터에 비정규 SEM을 적용해, 기존 Gaussian SEM보다 더 나은 예측 성능과 신뢰구간을 제공한다.
이 논문의 주요 기여는 (1) 비정규 오류와 변환을 통합한 새로운 SAR 모델 계열, (2) 이러한 모델에 대한 효율적인 변분 추정법, (3) MNAR 결측 메커니즘을 포함한 베이지안 공동 추정 프레임워크, (4) 실용적인 HVB 알고리즘을 통해 대규모 공간 데이터에 적용 가능한 계산 효율성이다. 향후 연구는 다중 응답, 시간적 종속성, 그리고 다른 비정규 분포(예: 로그정규, 베타)로의 확장을 고려할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기