OR·PS·DR 이해를 돕는 통합 해설
본 논문은 Kang·Schafer의 결측 데이터 평균 추정 비교에 대한 논평으로, 결과 회귀(OR)와 성향점수(PS) 방법의 특성을 정리하고, 두 방법을 결합한 이중강건(DR) 추정기의 이론적·실용적 장점을 상세히 설명한다.
저자: Zhiqiang Tan
Zhiqiang Tan은 Kang과 Schafer(KS)의 “Understanding OR, PS and DR” 논문에 대한 논평을 통해, 결측 데이터 상황에서 모집단 평균을 추정하는 세 가지 주요 방법—결과 회귀(OR), 성향점수 가중치(PS), 그리고 이중강건(DR)—의 이론적 기반과 실용적 함의를 체계적으로 정리한다.
먼저, 논문은 모집단 평균 μ₁=E(Y₁)를 추정하기 위한 비모수적 설정을 소개한다. 여기서 X는 사전 공변량, T는 치료(관측) 지표이며, Y는 관측된 결과이다. OR 접근법은 m₁(X)=E(Y|T=1,X)를 파라메트릭 형태 m₁(X;α)로 지정하고, 추정된 회귀값을 평균화해 μ̂_OR= n⁻¹∑̂m₁(X_i) 를 얻는다. 반면 PS 접근법은 π(X)=P(T=1|X)를 π(X;γ) 로 모델링하고, 역확률 가중치(IPW) μ̂_IPW= n⁻¹∑ T_iY_i/π̂(X_i) 로 추정한다.
Tan은 Proposition 1을 인용해 두 방법 모두 효율적인 영향함수 τ₁을 공유하지만, π(X)≈0인 영역에서는 반정규(semiparametric) 분산 하한이 급격히 커진다. 이는 관측이 거의 없는 영역에서 평균을 추정하기가 본질적으로 어려워짐을 의미한다.
다음으로 Proposition 2를 통해 OR과 PS의 asymptotic variance를 비교한다. OR 모형이 정확히 지정되고 효율적으로 추정될 경우, μ̂_OR의 분산은 μ̂_AIPW(augmented IPW)의 분산보다 작다. 이는 OR이 “공격적”이라 불리며, 정확한 모델이 있으면 최소 분산을 달성한다는 뜻이다. 반면 PS 기반 추정량은 “보수적”이며, 모델이 정확히 지정되지 않으면 분산이 하한보다 크게 증가한다.
두 접근법의 실무적 장단점을 논의하면서, Tan은 다음과 같은 질문을 제기한다. (a) 어느 쪽 모델을 정확히 지정하기 쉬운가? (b) 어느 쪽 모델의 경미한 오차가 더 큰 편향을 초래하는가? 그는 OR이 치료군만을 이용해 외삽을 해야 하므로, π(X)≈0인 구간에서 모델 검증이 어려워 편향 위험이 크다고 지적한다. 반면 PS는 전체 데이터를 활용해 모델 진단이 가능하지만, 고차원 X에서는 추정 불안정과 과적합 위험이 있다.
DR 추정기는 이러한 양쪽의 약점을 보완한다. 논문은 두 형태의 DR 추정량을 제시한다. 첫 번째는 기존의 AIPW를 “고정(fix)” 형태로 변형한 μ̂_AIPW,fix= n⁻¹∑
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기