인구조사 커버리지 조사 미래
인구조사 커버리지 조사는 전체 인구에 대한 오류 수준을 파악하는 데는 유용하지만, 지역별 차이를 정확히 측정하기는 어렵다. 가장 큰 장애는 ‘이중 누락’이라 불리는, 인구조사와 조사 모두에서 빠진 사람들이다. 향후 조사 설계는 공간적 세분화를 포기하고, 표본 규모를 약 3만 명 수준으로 제한해 처리 오류와 보완 작업에 자원을 집중해야 한다. 미국 커뮤니티 조사(ACS)와의 통합도 검토할 가치가 있다.
저자: Kenneth Wachter
이 논문은 1950년부터 매 10년마다 시행된 미국 인구조사의 사후 조사(post‑enumeration survey) 역사를 되짚으며, 특히 1980년대 이후 확대된 PEP, PES, ACE 프로그램을 중심으로 그 설계·운용·분석 방법을 상세히 살펴본다. 초기에는 전국 규모의 총체적 오류(언더카운트, 오버카운트)를 파악하고, 인구·인종·성별 차이를 보고하는 것이 주요 목표였으며, 지역별 세부 추정은 의도되지 않았다. 그러나 1980년 이후, 정책·법적 압력으로 인해 지역별 차이를 추정하려는 시도가 시작되었고, 이를 위해 듀얼 시스템 추정기(DSE)를 활용해 블록 단위까지 조정된 인구수를 산출하려 했다.
DSE는 인구조사와 사후 조사 두 데이터베이스를 교차시켜 2×2 표의 네 셀을 이용해 누락 인구를 추정한다. 하지만 실제 데이터에서는 ‘이중 누락’이라 불리는, 두 시스템 모두에서 빠진 인구가 존재한다. 이들은 DSE가 가정하는 독립성(누락이 서로 무관하다는 가정)을 위배하며, 결과적으로 지역별 누락 추정에 큰 편향을 초래한다. 논문은 이중 누락 인구를 추정하기 위해 인구통계 분석(DA)과 비교하는 방법을 사용했으며, 1990년과 2000년 조사에서 각각 약 300만·250만 명이 이중 누락으로 추정된다는 결과를 제시한다.
또한, DSE 자체에도 ‘측정 오류(measured bias)’와 ‘상관 편향(correlation bias)’이라는 두 종류의 오류가 존재한다. 측정 오류는 중복 기록, 주소 오류, 매칭 오류 등 처리 과정에서 발생하며, 일반적으로 DSE가 순 누락을 과대평가하도록 만든다. 반면 상관 편향은 이중 누락으로 인한 편향이며, 직접 관측이 불가능해 DA와 같은 외부 추정에 의존한다.
이러한 문제점을 바탕으로 저자는 미래 커버리지 조사 설계에 세 가지 핵심 제안을 한다. 첫째, 공간적 세분성을 포기하고 전국 수준의 총체적 오류 추정에 집중한다. 둘째, 표본 규모를 약 30,000명(또는 가구) 수준으로 제한해 조사 비용을 절감하고, 남은 자원을 데이터 처리 오류 검증 및 보완 프로그램에 재투자한다. 셋째, 미국 커뮤니티 조사(ACS)와의 통합을 검토한다. ACS는 연간 대규모 표본을 운영하므로, 커버리지 조사와 연계하면 시간적 연속성, 비용 효율성, 그리고 처리 오류 감시 체계를 동시에 강화할 수 있다.
결론적으로, 인구조사 커버리지 조사는 전국적인 오류 수준을 파악하고 인구·인종·성별 차이를 보고하는 데는 여전히 유용하지만, 지역별 차이를 정확히 측정하려는 목적에는 구조적 한계가 있다. 이 한계는 ‘이중 누락’이라는 근본적인 통계적 문제에서 비롯되며, 현재의 방법론으로는 완전히 극복할 수 없다. 따라서 정책 입안자는 커버리지 조사 결과를 해석할 때 공간적 세분성에 대한 기대를 낮추고, 조사 설계와 자원을 오류 검증 및 실제 인구 누락 감소에 집중하도록 방향을 전환해야 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기