조건부 비응답을 고려한 층화표본의 의사 경험가능도 접근법
초록
응답 확률이 보조 범주형 변수 Z에만 의존하고 Y와는 조건부 독립인 경우, 기존의 셀별 보정 방법은 작은 Z 범주에서 비효율적이다. 본 논문은 Y에 대한 비모수적 분포와 Z|Y에 대한 파라메트릭 모델을 결합한 의사 경험가능도(pseudo empirical likelihood) 방법을 제안한다. 이를 통해 Z 범주를 임의로 합치지 않고도 전체 표본을 이용한 가중치 재조정·보간이 가능하며, 모집단 평균에 대한 추정량의 점근적 정규성을 증명하고 부트스트랩을 통한 분산 추정의 일관성을 확보한다. 시뮬레이션 결과는 제안 방법이 기존 셀별 보정보다 평균제곱오차가 현저히 낮음을 보여준다.
상세 분석
본 연구는 설문조사에서 흔히 발생하는 비응답 문제를 다루면서, 특히 응답 확률이 조사 변수 Y와 직접적인 연관성을 갖지 않고, 관측 가능한 보조 변수 Z에만 의존한다는 MAR(Missing At Random) 가정을 전제로 한다. 전통적인 실무에서는 Z의 각 범주를 하나의 ‘보간 셀’로 설정하고, 셀 내부에서 비응답자를 보간하거나 가중치를 재조정한다. 그러나 Z 범주의 표본 크기가 작을 경우, 셀 내부 정보가 부족해 추정 효율성이 급격히 떨어진다. 이를 보완하기 위해 연구자는 Z|Y의 조건부 확률을 파라메트릭 형태(예: 로짓 모델)로 지정하고, Y 자체는 비모수적(즉, 경험가능도 기반)으로 다루는 이중 모델링 전략을 채택한다.
의사 경험가능도는 실제 관측된 응답 데이터와 비응답 데이터에 대해 각각 별도의 경험가능도 함수를 구성한 뒤, 파라메트릭 Z|Y 모델의 제한조건을 라그랑주 승수 형태로 결합한다. 이 과정에서 전체 표본(응답·비응답 모두)의 정보를 동시에 활용하게 되므로, 작은 Z 범주라도 다른 범주의 정보를 ‘빚어’낼 수 있다. 즉, Z 범주 간에 가중치를 공유함으로써 셀 합치기(collapsing)라는 임의적 전처리 단계가 필요 없어진다.
점근 이론적 분석에서는 제안된 의사 경험가능도 추정량이 일관성을 갖고, 적절한 정규화 하에 다변량 정규분포로 수렴함을 증명한다. 특히, 파라메트릭 Z|Y 모델의 파라미터와 비모수적 Y 분포를 동시에 추정함에도 불구하고, 두 부분이 서로 독립적인 영향을 주는 구조를 이용해 정보 행렬을 분해하고, 효율적인 추정식을 도출한다.
분산 추정에 있어서는 부트스트랩 방법을 채택한다. 층화표본 설계와 비응답 메커니즘을 그대로 재현하는 복합 부트스트랩 절차를 설계하고, 이 부트스트랩 분산이 실제 점근 분산에 수렴한다는 일관성 정리를 제시한다. 이는 실무에서 신뢰구간을 구성하거나 가설 검정을 수행할 때, 복잡한 수식적 분산식 대신 부트스트랩을 이용해 간편히 적용할 수 있음을 의미한다.
시뮬레이션에서는 다양한 층화 구조, Z 범주의 크기 불균형, 그리고 비응답 비율을 변형시켜 실험하였다. 결과는 전통적인 셀별 보정 방법에 비해 평균제곱오차(MSE)가 20~40% 정도 감소하고, 특히 Z 범주가 매우 작거나 비응답률이 높을 때 그 차이가 두드러졌다. 또한, 부트스트랩 기반 분산 추정이 실제 변동성을 잘 포착함을 확인하였다.
이러한 기여는 설문조사·인구통계 연구에서 비응답으로 인한 편향을 최소화하면서도, 데이터 손실 없이 효율적인 추정을 가능하게 만든다. 특히, 사전 정의된 보조 변수 Z가 범주형이고, 그 범주가 다수이면서도 일부는 희소한 경우에 본 방법은 실무 적용 가치가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기