선택 편향 하 평균 처리 효과 복구를 위한 새로운 그래프 규칙
초록
본 논문은 기존 인과 그래프 기반 규칙으로 해결되지 않는 두 종류의 선택 편향—처리와 결과의 콜라이더 후손이 선택에 영향을 미치는 경우와 매개변수가 선택에 영향을 주는 경우—에 대해, SWIG을 활용한 g‑계산 및 역확률 가중치(IPW) 방법을 제시하고, 이를 통해 평균 처리 효과(ATE)를 식별·추정하는 새로운 그래프 규칙을 제안한다. 시뮬레이션을 통해 전통적인 완전 사례 분석이 오차를 발생시키는 반면, 제안된 방법이 정확한 추정치를 제공함을 확인한다.
상세 분석
이 연구는 선택 편향을 인과 다이어그램(DAG)과 단일 세계 개입 그래프(SWIG)으로 형식화한 뒤, 기존에 제시된 “selection‑backdoor”, “generalized adjustment”, “Mathur‑Shpitser” 규칙이 두 특수 상황을 포괄하지 못함을 증명한다. 첫 번째 경우는 치료 A와 결과 Y의 콜라이더 L이 선택 변수 S의 직접 원인인 상황으로, L은 A와 Y의 공통 효과이며 S는 L의 후손이다. 두 번째 경우는 L이 A→Y 경로상의 매개변수이며, L이 선택에 직접 영향을 미친다. 두 경우 모두 전통적인 규칙은 “사후 변수는 조건화하면 안 된다”는 전제를 두고 있어 식별이 불가능하다고 판단한다.
저자들은 이러한 제한을 극복하기 위해, (1) 사후 변수 L을 조건화하되 외부 데이터(선택되지 않은 표본에 대한 L의 분포)를 활용하는 g‑계산 식을 도출하고, (2) 선택 확률을 역확률 가중치로 보정하는 IPW 식을 제시한다. 핵심은 SWIG을 이용해 잠재적 결과 Y(a), 사후 변수 L(a), 선택 S(a) 사이의 독립성 관계를 명시하고, 다음 세 가지 조건을 만족하면 식별이 가능하다는 점이다: (C1) Y(a) ⟂⟂ S(a) | L(a), X; (C2) Y(a) ⟂⟂ A | L(a), S(a), X (g‑계산) 혹은 (Y(a),S(a)) ⟂⟂ A | L(a), X (IPW); (C3) L(a) ⟂⟂ A | X. 여기서 X는 관측 전처리 변수이며, U는 관측되지 않은 교란 변수이다.
정리 1‑3은 위 조건 하에서 ATE를 g‑계산식(1)으로, 정리 2와 정리 4‑6은 IPW 식(3)으로 각각 식별함을 증명한다. 특히, IPW는 선택에 영향을 주는 모든 전처리 변수 X₃까지 포함해야 하는 반면, g‑계산은 L이 선택을 차단하는 역할을 하면 X₃를 제외해도 식별이 가능함을 보여준다. 이는 사후 변수와 전처리 변수 사이의 구조적 차이를 이용한 중요한 통찰이다.
시뮬레이션에서는 무작위 임상시험을 모사해 A와 Y가 이진 변수이고, L이 콜라이더 혹은 매개변수인 두 시나리오를 설정하였다. 완전 사례 분석(선택된 표본만 사용)에서는 추정된 ATE가 실제값과 크게 차이났으며, 때로는 부호가 반대로 나타났다. 반면, 제안된 g‑계산 및 IPW 추정량은 외부 데이터(선택되지 않은 표본의 L 분포)와 결합했을 때 편향이 거의 없고, 표준 오차도 적절히 추정되었다.
이 논문은 선택 편향을 다루는 기존 그래프 규칙의 한계를 명확히 밝히고, 사후 변수를 활용한 식별 전략을 체계화함으로써 역확률 가중치와 g‑계산이 선택 편향 상황에서도 강력한 도구가 될 수 있음을 실증한다. 또한, SWIG을 통한 변수 간 인과 관계 명시가 식별 조건을 직관적으로 도출하는 데 유용함을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기