응답자 주도 표집의 네트워크 구조와 분산 추정 편향

응답자 주도 표집(RDS)은 사회적 네트워크를 활용해 접근이 어려운 집단을 조사하는 대표적인 샘플링 기법이다. RDS는 두 가지 핵심 요소로 구성된다. 첫째, 피험자들이 자신의 네트워크 연결을 통해 새로운 참여자를 모집하는 “연쇄 모집” 과정이며, 둘째, 모집 과정이 무작위 워크(random walk)와 유사하다는 가정하에 모집단 평균을 추정하는 통계적 방법이다. 기존 연구는 주로 평균 추정치의 편향과 효율성에 초점을 맞추었으며, RDS가 가정하는 여러 전제(비분기 모집, 교체 추출, 정확한 차수 보고, 무방향 네트워크 등)가 실제와 다를 경우 평균 추정에 큰 오차가 발생할 수 있음을 지적했다. 그러나 평균 추정 외에도 연구에서 필수적인 것이 표본 분산, 즉 추정치의 변동성을 평가하는 것이다. 표본 분산이 정확히 추정되지 않으면 신뢰구간과 가설 검정이 잘못된 결론을 초래한다. 현재 RDS에서 널리 사용되는 두 가지 분산 추정법은 Salganik‑Bootstrap Estimator(SBE)와 Volz‑Heckathorn Estimator(VHE)이다. 두 방법은 표본 내에서 관측된 사례들의 연쇄적 관계를 이용해 분산을 추정하지만, 근본적으로 “속성에 대한 1차 마코프(FOM) 가정”에 의존한다. 즉, 조사 대상 속성(예: 질병 유무)의 현재 값만이 다음 단계 전이 확률을 결정한다는 전제다. 논문은 먼저 이 FOM 가정이 네트워크 구조에 어떤 제한을 부과하는지를 수학적으로 전개한다. 마코프 전이 행렬을 고유값·고유벡터 분해하면, 첫 번째 고유값과 고유벡터가 장기적인 샘플링 확률을 결정한다. FOM 가정이 성립하면 전이 행렬은 속성별 동질성만을 반영하는 단순 형태가 되지만, 실제 사회 네트워크는 다차원 동질성, 클러스터링, 숨은 변수 등에 의해 복잡한 고차 상관을 가진다. 이러한 복잡성을 무시하면 전이 행렬이 실제보다 단순화되어, VHE와 SBE가 계산하는 분산은 실제보다 작게 된다. 이를 입증하기 위해 저자는 두 가지 직관적 예시를 제시한다. 첫 번째 예시는 “숨은 변수”가 존재해 속성 전이가 2차 마코프가 되는 경우이다. 이 경우, 첫 단계 전이만을 이용해 분산을 추정하면, 실제보다 낮은 값을 얻게 된다. 두 번째 예시는 여러 차원에서 동질성이 동시에 작용하는 상황으로, 첫 단계 전이만으로는 노드 간 공분산 구조를 충분히 포착하지 못한다. 두 경우 모두 VHE가 실제 분산을 체계적으로 과소평가한다는 점을 수학적으로 증명한다. 실증 분석에서는 215개의 실제 네트워크(Facebook 대학 네트워크와 Add Health 학교 네트워크)를 사용했다. 전체 네트워크에 대해 FOM 검정을 수행한 결과, 모든 네트워크가 FOM 가정을 위배함을 확인했다. 이는 실제 사회 네트워크가 고차 상관을 내포하고 있음을 의미한다. 흥미롭게도, 각 네트워크에서 무작위로 추출한 RDS 표본에 대해 동일 검정을 적용하면, 대부분의 표본이 FOM 가정을 충족한 것으로 나타났다. 즉, 표본만으로는 네트워크가 FOM을 위배했는지 판단하기 어렵다. 이는 연구자가 표본을 기반으로 분산 추정치가 편향될 위험을 인지하지 못한다는 심각한 문제를 제기한다. 편향을 완화하기 위해 두 가지 대안적 분산 추정법을 제안한다. 첫 번째는 RDS의 “분기 구조”(branching recruitment)를 명시적으로 모델링해 전이 행렬을 보정하는 방법이다. 기존 VHE는 단일 체인 형태를 가정하지만, 실제 RDS는 여러 브랜치가 동시에 진행되므로, 이를 반영하면 공분산 구조를 더 정확히 추정할 수 있다. 두 번째는 2차·3차 마코프 전이 행렬을 추정해 고차 상관을 반영하는 방법이다. 시뮬레이션 결과, 두 방법 모두 기존 VHE·SBE보다 평균적인 편향을 감소시키지만, 완전한 보정에는 한계가 있다. 특히 고차 전이 행렬을 정확히 추정하려면 표본 크기가 크게 필요하고, 실제 조사에서는 실현 가능성이 낮다. 결론적으로, 논문은 현재 RDS에서 사용되는 분산 추정법이 네트워크 구조적 복잡성을 충분히 반영하지 못해 일반적으로 모집단 분산을 과소평가한다는 중요한 경고를 제시한다. 연구자는 기존 방법에 의존해 신뢰구간을 제시할 경우, 실제 불확실성을 크게 과소평가할 위험이 있다. 따라서 RDS 설계 단계에서 가능한 한 네트워크 구조 정보를 확보하거나, 고차 마코프 모델을 포함한 새로운 분산 추정 방법을 개발하는 것이 필요하다. 이와 더불어, 표본 수준에서 FOM 위배 여부를 판단하는 기존 검정이 실제 편향을 예측하지 못한다는 점을 감안해, 보다 강건한 진단 도구와 보정 방법이 요구된다.

응답자 주도 표집의 네트워크 구조와 분산 추정 편향

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기