비무작위 결측을 고려한 행렬 완성과 패널 데이터 인과 추정

Choi와 Yuan(2025)은 패널 데이터에서 치료 선택에 의해 발생하는 비무작위 결측(MNAR) 상황에서도 행렬 완성(matrix completion) 기법이 인과 효과를 추정할 수 있다고 주장한다. 이 논문은 그들의 제안을 두 가지 관점에서 비판·보완한다. 첫 번째는 “split‑apply‑combine” 전략으로서의 해석이다. 저자는 기존 차분‑인 차분(DiD)이나 합성 대조군(Synthetic Control) 방법이 모두 데이터를 “분할(split) → 적용(apply) → 결합(combine)”하는 절차를 따르고 있음을 강조한다. CY의 방법도 마찬가지로, 먼저 특정 치료 시점과 동일한 치료 시점을 가진 유닛을 선택해(분할), 핵노름 정규화된 행렬 완성으로 결측된 반사실(counterfactual) 값을 추정하고(적용), 치료 유닛들의 평균 차이를 구해 최종 효과를 도출한다(결합)한다. 두 번째는 통계적 “last mile” 문제, 즉 이론적 보장은 충분하지만 실제 적용 시 발생하는 여러 실무적 난관을 조명한다. 저자는 먼저 효과 추정의 대상이 ITE(개별 치료 효과)인지 ATT(처리된 평균 효과)인지 명확히 구분할 필요가 있음을 지적한다. 행렬 완성은 ITE에 대한 고확률 오차 경계는 제공하지만, 개별 오차항 때문에 실제 ITE 추정은 불가능에 가깝다. 따라서 다수의 처리 유닛이 존재할 때는 ATT를 목표로 “combine‑before‑apply” 전략을 채택하는 것이 효율적이다. 또한 캘린더 시간 기반 ATT와 사건 시간 기반 ATT의 해석 차이를 논한다. 캘린더 시간 평균은 서로 다른 치료 경로를 혼합해 해석이 복잡해지는 반면, 사건 시간 평균은 동일한 치료 경과(k 시점)를 비교해 직관적이다. 그러나 행렬 완성에서는 사건 시간 평균을 얻기 위해 서로 다른 캘린더 시점의 특이값을 혼합해야 하므로, 비대칭적 분산·편향 문제가 발생할 수 있다. 이와 더불어 실무에서 자주 마주치는 이분산 강건 추정, 하이퍼파라미터 선택, 진단 도구의 부재도 다룬다. 저자는 기존 교차검증이 결측 구조를 무시한다는 점을 비판하고, 사전 기간을 보류하거나 결측 비율을 맞추는 새로운 검증 방식을 제안한다. 진단 도구로는 전통적인 이벤트 스터디 플롯 외에 “in‑time‑placebo” 검정(치료 시점을 앞당겨 가상의 효과를 추정) 등을 활용해 모델 가정 위배 여부를 확인할 수 있다. 정책 적용 사례로는 1977‑2014년 미국 44개 주(전처리 관측 최소 8년)에서 ‘휴대권(RTC)’ 법이 폭력 범죄에 미친 영향을 분석한다. 네 가지 추정기(전체 행렬 핵노름 행렬 완성, CY 방법, 부분 합성 대조군, G‑synth)와 DiD를 비교했을 때, 사전 기간 효과는 거의 0이지만 사후 효과는 행렬 완성과 CY가 200명당 100,000명 기준으로 과도하게 크게 추정했다. 이는 다른 방법이 10~11명당 100,000명 수준을 보인 것과 큰 차이이다. 단위·시간 고정효과를 사전 제거한 후 재추정하면 행렬 완성 추정치가 다른 방법과 일치하고, 심지어 사후 효과가 소폭 감소하는 등 결과가 크게 개선된다. 이는 고정효과 전처리의 중요성을 시사한다. 결론적으로, 저자는 CY의 행렬 완성 접근을 현대 인과 추정 프레임워크와 연결시키고, 실무 적용 시 필요한 보완책(효과 정의 명확화, 캘린더·사건 시간 선택, 이분산 강건 추정, 하이퍼파라미터 선택, 진단 도구)들을 제시한다. 이러한 논의는 행렬 완성 기반 패널 인과 분석이 이론적 강점을 유지하면서도 실제 정책 평가에 활용될 수 있는 길을 제시한다.

비무작위 결측을 고려한 행렬 완성과 패널 데이터 인과 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기