자기보호 반응을 반영한 무작위 응답 데이터 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 네덜란드 사회보장 조사에서 민감한 위법 질문에 무작위 응답(Randomized Response) 기법을 적용했을 때, 일부 응답자가 설계된 무작위 장치를 무시하고 항상 비위법 답변을 선택하는 ‘자기보호(self‑protective)’ 행동을 통계적으로 모형화한다. 실제 위법 횟수를 잠재 포아송 변수로 두고, 무작위 응답 과정을 통해 관측된 ‘예’ 답변 수를 생성한다. 자기보호 응답은 관측된 영(0)값을 과다하게 만들므로, 이를 영‑인플레이션(zero‑inflation)으로 모델링하고, 포아송 파라미터와 자기보호 확률에 각각 예측 변수를 포함한 확장된 ZIP 회귀모형을 제시한다. 설문 데이터에 적용한 결과, 인구통계학적 요인과 설문 설계에 대한 신뢰·이해도가 자기보호 행동과 위법 횟수에 미치는 영향을 동시에 추정할 수 있음을 보여준다.

상세 분석

이 연구는 무작위 응답 설계가 프라이버시 보호를 제공함에도 불구하고, 응답자가 설계 규칙을 무시하고 일관되게 ‘아니오’(비위법) 답변만 하는 현상을 정량화하려는 시도이다. 기존 무작위 응답 모델은 응답자의 진실 상태와 무작위 장치의 결과에 따라 오분류 확률(p_y*|y)을 미리 정의하고, 이를 이용해 관측된 이산 응답을 추정한다. 그러나 자기보호 행동이 존재하면 관측된 영(0)값이 포아송‑무작위 응답 분포보다 과다하게 나타난다. 저자는 이를 ‘관측 영‑인플레이션’으로 해석하고, ZIP 모델을 도입한다. 구체적으로, 진짜 위법 횟수 S는 파라미터 λ를 갖는 포아송 분포를 따르며, 무작위 응답 과정에 의해 S*가 생성된다. 동시에, 자기보호 확률 θ_i를 로짓 형태로 모델링하여, 각 개인이 영값을 고정적으로 생성할 확률을 설명한다. 따라서 전체 관측 분포는 (1‑θ)·Poisson‑RR + θ·δ_0 형태가 된다.

모델 추정은 최대우도법(ML)으로 수행되며, λ와 θ에 각각 선형 예측자를 넣어 회귀계수를 추정한다. λ에 대한 예측자는 성별, 연령, 실업 연수, 교육 수준, 규정 지식 등 전통적인 위법 위험 요인이며, θ에 대한 예측자는 ‘신뢰(trust)’와 ‘이해(understanding)’라는 두 가지 설문 설계 관련 변수이다. 데이터는 5개의 민감 질문에 대한 ‘예’ 답변 수를 합산한 합계 점수(S*)와 870명의 응답자를 포함한다. 실제 무작위 장치가 프로그래밍 오류로 인해 ‘예’ 답변 확률이 기대값(11/12, 1/6)과 다르게 0.9329와 0.18678로 설정된 점도 모델에 반영된다.

분석 결과, 연령이 높을수록(>26세) 영값 비율이 증가하고, 실업 연도가 2004년인 경우 영값 비율이 더 높았다. 교육 수준·규정 지식은 위법 횟수 λ에 양의 영향을 주었으며, ‘신뢰’ 점수가 높을수록 자기보호 확률 θ가 감소하는 경향을 보였다. 즉, 설문 설계에 대한 신뢰가 높을수록 응답자는 무작위 장치에 따라 정직하게 답변할 가능성이 커진다. 모델 적합도 검증에서는 포아송 가정이 충분히 타당함을 확인했으며, ZIP‑RR 모델이 단순 포아송‑RR보다 AIC 등 정보 기준에서 우수함을 보고한다.

이 논문의 주요 기여는 (1) 자기보호 행동을 영‑인플레이션으로 공식화함으로써 무작위 응답 데이터의 과도한 영값 문제를 해결, (2) 포아송‑RR과 ZIP‑RR을 결합한 회귀 프레임워크를 제시, (3) 설문 설계에 대한 인지·신뢰 변수가 응답 왜곡에 미치는 영향을 정량화한 점이다. 이러한 접근은 민감한 사회·보건 조사, 범죄 연구 등에서 무작위 응답을 사용할 때, 실제 비율을 보다 정확히 추정하는 데 실용적 가치를 제공한다.

자기보호 반응을 반영한 무작위 응답 데이터 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기