대체 합성 이중시스템 추정식과 인구 보정의 새로운 접근

본 논문은 2000년 미국 인구조사에서 사용된 이중시스템 추정법(DSE)의 합성 가정에 주목한다. 특히 ‘imputation’(보완) 데이터의 처리 방식을 달리하는 세 가지 대안 공식을 제시하고, 이들이 주·군 수준의 인구 추정치에 미치는 차이를 실증적으로 분석한다. 결과는 인구 보정에서 합성 가정의 민감성을 보여주며, 인구통계학적 이질성이 큰 실제 조사에서 기존 공식이 반드시 최선이 아님을 시사한다.

저자: Lawrence Brown, Zhanyun Zhao

이 논문은 2000년 미국 인구조사에서 사용된 이중시스템 추정법(Dual System Estimation, DSE)의 핵심 가정인 ‘합성 가정(synthetic assumption)’을 재검토한다. DSE는 인구조사 결과와 사후 조사인 Accuracy and Coverage Evaluation(A.C.E.)의 두 표본(P‑sample, E‑sample)을 결합해 인구를 보정한다. 전통적인 절차는 각 포스트‑스트라텀(post‑stratum)별로 ‘데이터‑정의(data‑defined, DD)’ 인구를 기준으로 정확도(CR)와 매칭률(MR)을 추정하고, 이를 통해 DSE_i = DD_i · CR_i · (1/MR_i) 를 계산한다. 이후 이 추정치를 소규모 지역(k)으로 나눌 때, 해당 스트라텀 내 인구조사 카운트(C_ik)와 비례한다는 가정, 즉 합성 가정을 적용한다. 하지만 2000년 조사에서는 ‘imputation(II)’이라 불리는, 정보가 부족해 P‑sample에 포함되지 못한 가구·인구가 전체 카운트의 약 3%를 차지한다. II는 ‘known‑person‑count’, ‘unknown‑person‑count’, ‘late‑adds’ 등 세 유형으로 구분되며, 특히 late‑adds는 중복 검증 과정에서 발견된 2.4백만 명의 잠재적 중복 인구를 재등록한 결과이다. 이러한 II는 인구분포가 카운트와 동일하게 비례한다는 가정을 위배할 가능성이 크다. 이에 저자들은 II 처리를 다르게 가정한 세 가지 대안 공식을 제시한다. 1) **첫 번째 대안**은 DSE 계산에서 II를 완전히 배제하고, DD만을 사용해 추정한다. 이후 지역별 배분도 DD 비율만을 적용한다. 이는 II가 완전히 무작위(동질)일 때 무편향을 보장한다. 2) **두 번째 대안**은 II를 스트라텀 내 일정 비율로 가정하고, α라는 보정계수를 도입해 DSE와 II를 동시에 보정한다. 즉, S_ik = C_ik ·

대체 합성 이중시스템 추정식과 인구 보정의 새로운 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기