GLS로 응답자 주도 표본추출의 변동성 한계 돌파
초록
본 논문은 응답자 주도 표본추출(RDS)에서 발생하는 높은 상관구조로 인한 분산 팽창 문제를 일반화 최소제곱법(GLS)으로 해결한다. 이론적으로 GLS 추정량의 분산이 표본크기 n에 대해 O(1/n)으로 감소함을 증명하고, 실제 적용을 위해 두 가지 실현 가능한 GLS(fGLS) 방법—도-정정 확률 블록모델(DC‑SBM) 기반과 랭크‑투 모델 기반—을 제시한다. 시뮬레이션과 실제 네트워크 데이터에서 fGLS가 기존 추정량보다 훨씬 작은 오차를 보이며, 모델 오-specification 및 선호적 모집에도 강인함을 확인한다.
상세 분석
본 연구는 RDS를 마코프 체인 위에 정의된 (T,P)‑walk 로 모델링한다. 표본은 트리 T 의 노드에 따라 순차적으로 선택되며, 각 노드 σ 에 대해 관측값 Yσ = y(Xσ) 가 얻어진다. 기존 평균 추정량은 샘플 간 상관으로 인해 분산이 O(1/n)보다 느리게 감소한다는 것이 알려져 있다. 저자들은 공분산 행렬 Σ 을 이용해 가중합 g 가 최소 분산을 갖도록 하는 일반화 최소제곱(GLS) 추정량을 정의하고, g* = (1ᵀΣ⁻¹1)⁻¹Σ⁻¹1 로 표현한다. 핵심 이론은 두 단계로 구성된다. 첫째, 완전 이진 트리 T 에 대해 Σ의 구조가 거리 d(σ,τ) 에만 의존하는 자동공분산 함수 γ(d) = ∑βℓ²λℓ^d 임을 보인다. 둘째, 이 경우 Σ⁻¹의 특수 형태를 이용해 GLS 추정량의 분산이 정확히 (1ᵀΣ⁻¹1)⁻¹ 이며, n→∞ 일 때 O(1/n) 으로 수렴함을 증명한다 (Theorem 3.1). 랭크‑투 모델(γ(d)=β²λ^d)에서는 Σ⁻¹을 명시적으로 구할 수 있어 상수까지 정확히 계산한다 (Theorem 3.2). 실용적인 적용을 위해 Σ를 추정해야 하는데, 저자들은 두 가지 접근법을 제시한다. 첫 번째는 네트워크를 도‑정정 확률 블록모델(DC‑SBM)로 가정하고, 샘플된 블록 전이 행렬 Q̂ 을 통해 P의 스펙트럼을 추정한다. Q̂는 블록 간 전이 횟수를 n으로 나눈 값이며, 기대값이 B/m(여기서 B 는 블록 연결 행렬, m 은 평균도)과 일치한다. 정규화된 B_L 의 고유값은 P의 비영 고유값과 동일하고, 이를 이용해 γ(d) 를 근사한다. 두 번째는 랭크‑투 가정을 직접 이용해 1‑시차 자기공분산 γ(1) 또는 차분 E
댓글 및 학술 토론
Loading comments...
의견 남기기