비무시가능 비응답 편향을 위한 순서형 설문 데이터 보정 방법

비무시가능 비응답 편향을 위한 순서형 설문 데이터 보정 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 응답자와 비응답자 사이에 결과 변수가 다르게 분포하는 비무시가능 비응답 문제를 해결하고자, 응답자에게서 관찰되는 응답‑가능성 프록시(예: 인터뷰어가 기록한 협조도)를 활용한 순서형 변수용 VRP(Variable‑Response‑Propensity) 추정기를 제안한다. 순서형 프로빗 모델에 상관된 잠재오차 ρ를 도입해 응답‑가능성 프록시와 결과 변수 간의 선택적 연관성을 추정하고, 이를 최대우도법으로 추정한다. ANES 2024 데이터를 통해 삶의 만족도에서는 ρ≈0.49로 의미 있는 교정 효과가 나타났으며, 경제 평가에서는 ρ≈0으로 교정 효과가 미미함을 확인한다.

상세 분석

이 연구는 기존 설문 가중치 조정법이 인구학적 마진을 맞추는 데는 유용하지만, 응답 여부가 결과 변수 자체와 연관될 때(비무시가능 비응답) 여전히 편향을 남긴다는 점을 명확히 짚어낸다. 이를 해결하기 위해 저자들은 Peress(2010)의 VRP 프레임워크를 순서형 결과 변수에 일반화하였다. 핵심 아이디어는 ‘응답‑가능성 프록시’를 도입해 응답자 중에서도 응답 확률이 낮은 집단을 식별하고, 이들의 잠재적 결과 분포를 비응답자에게 외삽(extrapolate)하는 것이다.

모형은 두 개의 순서형 프로빗 방정식으로 구성된다. 첫 번째는 결과 변수 yₙ을 설명하는 구조(αᵀxₙ + εₙ)이며, 두 번째는 응답‑가능성 프록시 rₙ을 설명하는 구조(βᵀzₙ + ηₙ)이다. εₙ와 ηₙ는 평균 0, 분산 1인 이변량 정규분포를 따르며, 이들의 상관계수 ρ가 비무시가능 비응답의 강도를 나타낸다. ρ>0이면 높은 만족도가 낮은 응답‑가능성 프록시와 연관되어 비응답자에게 과소평가될 위험이 있음을 의미한다.

식별은 프록시 rₙ이 충분히 변동성을 가지고, 그리고 zₙ에 결과에 직접 영향을 주지 않는 외생 변수가 포함될 때 가능하다. 저자들은 인터뷰어가 기록한 ‘협조도’ 등과 같이 응답 의지를 직접 반영하지만 결과와는 독립적인 변수를 zₙ에 포함시켜 ρ를 안정적으로 추정한다. 또한, 인구학적 층화 변수 zₙ를 이용해 알려진 인구 비율 p_zₖ을 사후 가중치에 결합함으로써 전통적인 포스트스트라티피케이션의 장점을 유지한다.

최대우도 추정은 관측된 응답자(N)와 비응답자(N_miss)의 로그우도 함수를 동시에 최적화한다. 비응답자에 대한 부분은 프록시가 최상위 카테고리(R+1)인 경우, 즉 r* > θ_R인 영역에 대한 정규밀도 적분으로 표현된다. 이때 N_miss는 실제 표본 프레임의 응답률에서 직접 얻거나, 민감도 분석을 위해 가정값을 설정한다. 표준오차는 δ‑방법과 수치적 야코비안으로 계산한다.

실증에서는 ANES 2024 데이터(≈3,000명, 응답률 50%)를 사용하였다. 삶의 만족도(5점 척도)와 국가 경제 평가(4점 척도)를 각각 분석했으며, 삶의 만족도에서는 프록시와 결과 간 명확한 단조 관계가 관찰돼 ρ≈0.49로 추정되었다. 비응답률을 20%, 50%, 70%로 가정한 민감도 분석에서도 교정된 인구 비율이 크게 변했으며, 특히 비응답자 비중이 클수록 낮은 만족도가 더 크게 보정되었다. 반면 경제 평가에서는 프록시와 결과 간 연관성이 거의 없으며 ρ≈0에 수렴해 교정 전후 차이가 미미했다. 이는 비무시가능 비응답이 변수마다 다르게 작용한다는 중요한 실증적 교훈을 제공한다.

방법론적 강점은 (1) 순서형 변수에 직접 적용 가능해 정보 손실을 최소화, (2) R 패키지 구현으로 실무 적용이 용이, (3) 기존 포스트스트라티피케이션과 자연스럽게 결합돼 인구 마진을 그대로 보존한다는 점이다. 한계는 (가) 잠재정규성 가정과 프록시의 단조성 전제가 강하게 작용한다는 점, (나) 프록시가 충분히 변동성을 갖지 못하면 ρ 추정이 불안정해진다, (다) 외생 변수 zₙ의 선택이 모델 식별에 결정적이라는 점이다. 향후 연구에서는 비정규 잠재분포, 베이지안 사전 설정, 다중 프록시 결합 등을 통해 이러한 제약을 완화할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기