클러스터 내부 노드 활용 A/B 테스트: 네트워크 간섭 극복을 위한 새로운 추정기
초록
본 논문은 클러스터 랜덤화 실험에서 “내부 노드”(모든 이웃이 동일 클러스터에 속하는 단위)가 전체 트리밍된 표본의 대다수를 차지한다는 사실을 이용한다. 내부 노드만을 평균내어 만든 Mean‑in‑Interior(MII) 추정기는 기존 Horvitz–Thompson(HT)·CAE 추정기에 비해 가중치가 완만해 분산이 크게 감소한다. 그러나 내부 노드가 전체 모집단을 대표하지 못해 편향이 발생할 수 있기에, 전체 네트워크에서 학습한 반사실(counterfactual) 예측기를 통해 공변량 이동을 보정한다. 보정된 MII는 반사실 예측 기반 추정기의 해석적 형태와 동일함을 보이며, 반표본(라벨)과 비표본(언라벨) 데이터를 결합한 반지도학습(semi‑supervised) 관점으로 재구성한다. 시뮬레이션 결과, 다양한 네트워크 밀도·클러스터 구조에서 보정된 MII가 편향·분산 모두에서 우수한 성능을 보인다.
상세 분석
이 연구는 네트워크 간섭이 존재하는 온라인 플랫폼에서 전통적인 A/B 테스트가 갖는 한계를 극복하기 위해, 클러스터 수준 무작위 배정(cluster‑level randomization)과 내부 노드(mean‑in‑interior, MII) 추정기의 조합을 제안한다. 논문은 먼저 기존 네트워크‑aware 추정기(HT, CAE)가 “클린 노드”(이웃이 모두 동일 처치를 받은 노드)만을 사용하고, 이때 가중치가 1/p^c 형태로 급격히 커져 분산이 폭발한다는 점을 지적한다. 실제 소셜 네트워크 데이터(Facebook)에서 내부 노드가 전체 인구의 약 8%에 불과하지만, 트리밍 후 남는 표본 중 내부 노드가 압도적으로 많다는 경험적 관찰을 제시한다.
MII 추정기는 내부 노드 집합 Int에 대해 단순 차이 평균을 계산한다(τ̂_MII = ȳ_int,treated – ȳ_int,control). 이는 HT의 역확률 가중치를 완전히 제거하고, 차이‑평균(DIM)과 동일한 가중 구조를 갖게 하여 분산을 크게 낮춘다. 저자는 내부 노드가 각 클러스터 내에서 대표성을 갖는다는 두 가지 기술적 가정을 제시하고, 이를 바탕으로 일관성(consistency) 정리를 증명한다(Assumption 3.1, Theorem 3.1). 특히, 클러스터 간 내부 노드 비율이 균등하게 수렴하고, 내부 평균이 전체 클러스터 평균에 근접한다면 MII는 τ에 대해 o_p(1) 수렴한다.
하지만 내부 노드만을 사용하면 네트워크‑의존 공변량(예: degree, 중심성)에서 경계 노드와 차이가 발생해 선택 편향(selection bias)이 생긴다. 이를 해결하기 위해 저자는 전체 네트워크를 이용해 반사실 예측기 μ̂(z, X) (예: GNN 기반)를 학습하고, 내부 노드 평균에 보정항을 추가한다. 보정된 추정식은
τ̂_aug = τ̂_MII + (E
댓글 및 학술 토론
Loading comments...
의견 남기기