백도어 기준의 일반화: 숨은 변수와 마코프 등가 클래스까지 포괄하는 새로운 조정 방법
본 논문은 Pearl의 백도어 기준을 DAG뿐 아니라 CPDAG, MAG, PAG와 같은 복합 그래프 구조에 확대한다. 단일 개입‑결과 변수 쌍에 대해 조정 집합 존재 여부를 그래픽하게 판별하는 필요·충분 조건을 제시하고, 존재 시 명시적인 조정 집합을 구성한다. 이론적 결과는 R‑패키지 *pcalg*에 구현되어 실무 적용이 가능하다.
저자: Marloes H. Maathuis, Diego Colombo
본 연구는 인과 베이지안 네트워크에서 관측 데이터만으로 인과 효과를 추정하기 위해 필수적인 공변량 조정 문제를 다룬다. Pearl(1993)의 백도어 기준은 DAG 구조가 완전히 알려졌을 때 충분조건을 제공하지만, 실제 분석에서는 (1) DAG 자체가 관측되지 않아 마코프 등가 클래스인 CPDAG만 알 수 있는 경우, (2) 잠재적 교란 변수(숨은 변수)가 존재해 DAG가 아닌 MAG로 표현되는 경우, (3) MAG 역시 완전히 식별되지 않아 그 등가 클래스인 PAG만 알 수 있는 경우가 흔하다. 이러한 상황을 포괄하기 위해 저자들은 ‘일반화 백도어 기준(GBD)’을 제안한다.
먼저, 그래프 이론적 배경을 정리한다. DAG, CPDAG, MAG, PAG는 각각 다른 수준의 불확실성을 나타내며, 에지 표시는 방향(→), 양방향(↔), 무방향(—), 부분 방향(∘→) 등 네 종류가 있다. 특히 MAG와 PAG에서는 ‘보이는(visible) 에지’와 ‘보이지 않는(invisible) 에지’를 구분한다. 보이는 에지는 어떤 숨은 변수도 X와 Y 사이에 공통 원인으로 작용할 수 없음을 의미한다.
Definition 3.7에서 GBD는 두 가지 조건을 만족하는 변수 집합 Z를 요구한다. (i) Z는 X와 Y 사이의 모든 백도어 경로에 대해, 그 경로가 **보이는** 에지만을 포함하거나, **콜라이더**가 아닌 중간 정점들을 차단하도록 해야 한다. (ii) Z는 X의 가능한 조상 중 Y와 직접적인 인과 경로에 포함되지 않는 변수들로 구성한다. 이 두 조건은 각각 m‑separation과 인과 전파 차단을 보장한다.
Theorem 3.1은 위 조건을 만족하는 Z가 존재하면, do‑연산 후의 분포 P(Y|do(X))를 관측 분포 P(Y|X,Z)·P(Z) 형태로 식별할 수 있음을 증명한다. 이는 기존 백도어 기준이 DAG에만 적용되던 것을, CPDAG·MAG·PAG까지 일반화한 결과이다.
다음으로 Section 4에서는 특정 (X, Y) 쌍에 대해 조정 집합 존재 여부를 판별하는 그래프‑알고리즘을 제시한다. 알고리즘은 (1) X와 Y 사이의 모든 백도어 경로를 탐색하고, (2) 각 경로에 보이는 에지와 콜라이더 여부를 검사한다. (3) 조건을 만족하지 못하는 경우 조정 집합이 존재하지 않음을 선언한다. 조건을 만족하면, ‘가능한 조상 집합’(가능한 조상 중 Y와 직접 연결되지 않은 변수)과 ‘비콜라이더 차단 집합’(백도어 경로의 비콜라이더를 차단하는 변수) 을 합쳐 명시적 조정 집합 Z*를 구성한다(Thm 4.1). 이 과정은 그래프 구조만으로 수행되므로, 숨은 변수와 구조 불확실성을 동시에 고려한다.
또한 저자들은 GBD가 Pearl의 백도어 기준과 정확히 일치함을 보이며(단일 개입 상황), 다중 개입 상황에서는 기존 기준보다 넓은 적용 범위를 제공한다(Lemma 3.1, Example 1). 기존 연구(Shpitser & Pearl, 2006; Van der Zander et al., 2014)와 비교해, GBD는 조정 가능성 판단을 위한 필요·충분 조건을 한 번에 제공하고, 구현이 간단하다는 장점이 있다.
실험 부분에서는 여러 인공 및 실제 데이터 그래프를 사용해 GBD 기반 조정 집합을 도출하고, 기존 방법과 비교한다. 결과는 GBD가 조정 가능성을 정확히 판별하며, 특히 MAG·PAG 상황에서 기존 방법보다 높은 성공률을 보임을 확인한다.
마지막으로, 이론적 증명은 Zhang(2008)의 m‑separation 결과와 variance‑based 충분조건을 결합해 그래프적 조건으로 변환함으로써 이루어진다. 구현 코드는 R‑패키지 *pcalg*의 `backdoor` 함수에 포함돼, 사용자는 추정된 CPDAG·MAG·PAG를 입력해 자동으로 조정 집합을 얻을 수 있다. 따라서 본 논문은 숨은 변수와 구조 불확실성을 동시에 다루는 실무 친화적 인과 추론 도구를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기