그래프 클러스터 무작위화로 네트워크 간섭 실험 효율화

** 본 논문은 온라인 서비스·제품의 효과를 평가하기 위해 널리 사용되는 A/B 테스트가, 사용자가 서로 연결된 소셜 네트워크 상에서 발생하는 **사회적 간섭(social interference)** 을 제대로 반영하지 못한다는 근본적인 한계를 지적한다. 전통적인 A/B 테스트는 ‘안정된 단위 처리값 가정(SUTVA)’에 의존해 각 사용자의 반응이 자신에게만 할당된 처리에 의해 결정된다고 가정한다. 그러나 실제 서비스(예: 친구 추천, 피드 노출 등)는 사용자의 이웃이 동일한 처리를 받았는지 여부에 따라 크게 달라진다. 따라서 두 사용자가 서로 다른 ‘우주(universe)’—하나는 모두 처리, 다른 하나는 모두 통제—에 동시에 존재할 수 없으며, 기존 방법으로는 **평균 처리 효과(ATE)** 를 정확히 추정하기 어렵다. ### 1. 네트워크 노출 모델 저자들은 이 문제를 해결하기 위해 **네트워크 노출**이라는 개념을 도입한다. 정점 i가 ‘처리 우주에 노출’되었다는 것은, 실제 할당 벡터 \(\mathbf{z}\)가 어떠하든 간에 i의 잠재적 결과 \(Y_i(\mathbf{z})\)가 **모두 처리된 상황** \(\mathbf{1}\)과 동일하다는 뜻이다. 반대로 ‘통제 우주에 노출’은 모두 통제된 상황 \(\mathbf{0}\)과 동일한 결과를 의미한다. 이러한 노출 조건은 실험 설계자가 사전에 정의하는 **노출 모델**에 따라 달라진다. 논문에서는 여러 실용적인 노출 조건을 제시한다. * **전체 이웃 노출(full‑neighborhood exposure)**: i와 i의 모든 이웃이 동일한 처리(또는 통제)를 받을 때. * **절대 k‑이웃 노출(absolute k‑neighborhood exposure)**: i와 최소 k개의 이웃이 동일한 처리를 받을 때. * **분수 q‑이웃 노출(fractional q‑neighborhood exposure)**: i와 전체 이웃 중 q 비율 이상이 동일한 처리를 받을 때. 이러한 모델은 실제 잠재적 결과와 완전히 일치하지 않을 수 있다(즉, **편향(bias)** 가 발생 가능). 그러나 노출 모델을 적절히 선택하면 편향을 제한하면서 분산을 크게 감소시킬 수 있다. ### 2. 그래프 클러스터 무작위화 (GCR) 노출 모델이 정의되면, 각 정점이 특정 노출 조건을 만족할 확률을 계산해야 한다. 이를 위해 저자들은 **그래프 클러스터 무작위화**라는 새로운 무작위화 방식을 제안한다. 그래프를 \(C_1, C_2, \dots, C_m\) 의 클러스터 집합으로 분할하고, 각 클러스터에 대해 독립적으로 ‘처리’ 혹은 ‘통제’를 할당한다. 클러스터 크기가 제한적이면, 정점 i가 자신의 이웃 전체가 같은 처리를 받는 경우(예: 전체 이웃 노출)와 같은 복잡한 이벤트를 **정확히** 확률적으로 기술할 수 있다. 논문은 다음 두 가지 핵심 기여를 제공한다. 1. **노출 확률의 효율적 계산**: 클러스터와 정점 주변 구조의 교집합을 이용해, 각 정점이 특정 노출 조건을 만족할 확률을 다항시간 알고리즘으로 구한다. 이는 기존에 ‘조합 폭발(combinatorial explosion)’ 때문에 불가능했던 계산을 실현한다. 2. **Horvitz‑Thompson 추정량**: 각 정점 i에 대해 관측된 결과 \(Y_i\)에 역노출 확률 \(1/p_i\) 를 가중치로 곱해 평균을 구한다. 노출 모델이 정확히 지정되었다면, 이 추정량은 **무편향(unbiased)** 이며, 기대값이 진정한 평균 처리 효과 \(\tau\) 와 일치한다. ### 3. 분산 최소화와 충분조건 무편향성을 확보한 뒤, 실험 설계자는 추정량의 **분산**을 최소화하는 것이 핵심 목표가 된다. 논문은 두 가지 중요한 결과를 제시한다. * **유계 차수와 유한 클러스터 크기**: 그래프의 최대 차수가 일정하고, 모든 클러스터가 크기 \(O(1)\) (n에 독립) 일 때, Horvitz‑Thompson 추정량의 분산은 \(O(1/n)\) 으로 감소한다. 이는 전통적인 독립 무작위화와 동일한 수준이다. * **차수에 대한 지수적 악화**: 반면, 클러스터가 부적절하게 선택되면(예: 각 정점을 별도 클러스터로 하는 경우) 분산이 차수 d에 대해 \(\exp(d)\) 로 급증한다. 이는 고차수 소셜 네트워크(예: 페이스북, 트위터)에서 실용적이지 않다. ### 4. 제한 성장 그래프와 선형 분산 상한 이 문제를 해결하기 위해 저자들은 **제한 성장 그래프(restricted‑growth graph)** 라는 새로운 그래프 클래스를 정의한다. 모든 정점 v와 거리 r에 대해 \

그래프 클러스터 무작위화로 네트워크 간섭 실험 효율화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기