조사 가중치와 회귀 모델링의 딜레마
본 논평은 Pfeffermann의 설문 가중치와 회귀 추정 방법을 비판하고, 셀 수 없는 포스트스트라티피케이션 셀, 셀 크기 미지, 비응답 변수 누락 등 실무적 한계를 지적한다. 또한 샘플 모델링 기반 대안 접근법을 제시하며, 가중 회귀와 베이지안/최우도 방법의 이론적 정당성을 논한다.
저자: Danny Pfeffermann
Pfeffermann(2007)은 설문조사에서 모집단 평균·차이·회귀계수를 추정하기 위해 가중 평균 \(\bar y_w\) 를 사용하고, 이를 회귀 가중치 설계와 연결하는 방법을 제시한다. 핵심 아이디어는 표본 선택·비응답에 영향을 미치는 모든 변수 X를 회귀 모델에 포함시켜, 샘플링 메커니즘을 “무시 가능”하게 만든 뒤, 포스트스트라티피케이션 셀을 정의하고 각 셀의 평균 \(\bar y_j\) 를 이용해 전체 평균을 추정한다. 논문은 셀 기반 가중치 설계, 고정·랜덤 회귀계수 모델, 두 단계 회귀 절차 등을 상세히 설명한다.
하지만 논평자는 다음과 같은 실무적·이론적 문제점을 제기한다. 첫째, 셀 수가 급증하면서 많은 셀에 표본이 거의 없거나 전혀 없으며, 이는 고정 회귀계수 모델에서는 어떻게 처리해야 할지 명확하지 않다. 특히 비응답으로 인한 빈 셀을 삭제하면 무시 가능 가정이 깨진다. 둘째, 셀 크기 N_j를 알려야 한다는 가정은 대규모 조사에서 현실적이지 않다. 셀 크기를 추정하면 가중치의 불확실성이 추가되어 분산 추정이 복잡해진다. 셋째, 분석자는 X 변수를 완전히 알 필요가 있다는 전제가 있다. 실제로는 표본 설계자는 X를 알지만, 데이터 분석자는 접근이 제한될 수 있다. 비응답이 MAR가 아니면 모델 자체가 편향될 위험이 있다. 넷째, 가중치가 데이터에 의해 추정되는 경우, 가중 평균의 분산은 조건부와 무조건부를 구분해야 하며, 평균제곱오차와 분산을 혼동하면 오해가 발생한다. 다섯째, 논문이 제안한 두 단계 회귀(첫 단계에 X와 상호작용 포함, 두 번째 단계 X를 제거하고 보정)도 실제로는 X의 모집단 분포를 알아야 가중치를 적용할 수 있어 실용성이 떨어진다. 여섯째, 가중 회귀가 유연하지 않다는 주장에도 불구하고, 의사가능도와 베이지안 프레임워크를 이용한 가중 회귀는 이미 널리 사용되고 있다. 일곱째, 계층적 모델을 적용하면 각 변수마다 다른 가중치를 산출해야 하는데, 통계청 등 공식기관은 단일 가중치를 선호한다는 실무적 제약을 간과한다. 마지막으로, 셀 간 상관(예: 인접 연령·교육 셀)을 무시하고 독립 랜덤 효과를 가정하는 것은 비현실적이며, 공간적 혹은 구조적 상관을 반영한 모델이 필요하다.
이러한 한계를 보완하기 위해 논평자는 샘플 모델링 기반 대안을 제시한다. 먼저, 모집단 모델 \(f_p(y|z)\) 와 샘플 모델 \(f_s(y|z)\) 를 정의하고, 샘플 포함 확률 \(\pi_i\) 를 이용해 가중치 \(w_i=1/\pi_i\) 를 만든다. 샘플 모델은 \(f_s(y_i|z_i)=E_p(\pi_i|y_i,z_i) f_p(y_i|z_i)/E_p(\pi_i|z_i)\) 로 표현되며, 이는 비응답·비표본 메커니즘을 직접 모델링한다. 이 접근법은 X 변수를 직접 알 필요 없이, 포함 확률 자체를 서베이 설계·응답 메커니즘의 대리변수로 사용한다. 또한, 샘플 모델을 이용해 기대값을 보정하면 가중 회귀와 동일한 추정량을 최소제곱 해로 도출할 수 있다(식 4,5). 가중 회귀는 \(b_w = ( \sum w_i z_i z_i')^{-1} \sum w_i z_i y_i\) 로, 이는 샘플 모델 하에서 최적이다. 조건부 가중치 \(q_i = w_i/E_s(w_i|z_i)\) 를 사용하면 분산이 더 작아진다. 마지막으로, 샘플-보완 모델을 정의해 비표본 유닛의 기대값을 추정하고, 전체 모집단 평균·총합을 \(\hat Y = \sum_{i\in s} y_i + \sum_{j\notin s} E_c(y_j|z_j)\) 로 계산한다. 이 식은 기존 가중 평균 추정량을 특수 경우로 포함한다.
결론적으로, Pfeffermann의 전통적인 포스트스트라티피케이션 기반 가중치 설계는 셀 수, 셀 크기, 비응답 변수 누락 등 실무적 제약에 취약하다. 샘플 모델링 접근법은 이러한 제약을 회피하면서도 이론적 정당성을 유지하고, 가중 회귀와 동일하거나 더 효율적인 추정량을 제공한다. 논평자는 이러한 대안을 통해 설문조사 데이터 분석에서 보다 유연하고 강건한 방법론을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기