세 변수 반사실 인과 그래프 모델의 2값→3값 확장과 식별 가능성 연구

초록

본 논문은 세 변수로 구성된 DAG(Directed Acyclic Graph)에서 각 변수의 값이 2가지인 기존 반사실 인과 그래프 모델을 3가지 값으로 일반화한다. 조건부 독립성을 보조 정보로 활용하여 6가지 유형의 모델을 정의하고, 각각에 대해 인과 효과가 식별 가능한 충분조건을 수학적으로 도출한다. 이를 통해 다중값 변수 환경에서도 반사실 인과 추론이 가능한 이론적 토대를 제공한다.

상세 분석

이 연구는 기존에 두 값(이진) 변수에 한정되었던 반사실(counterfactual) 인과 그래프 모델을 세 값(다중) 변수로 확장함으로써, 실제 데이터에서 흔히 관찰되는 다중 범주형 변수들을 다룰 수 있게 만든다. 논문은 먼저 세 변수 X, Y, Z가 각각 {0,1,2}의 값을 가질 수 있는 DAG를 설정하고, 변수 간 인과 관계를 방향성으로 명시한다. 이어서 “조건부 독립성(Conditional Independence, CI)”을 보조 정보로 활용한다. CI는 P(Y|do(X),Z)=P(Y|do(X))와 같은 형태로, 특정 변수 집합을 고정했을 때 다른 변수 간의 독립성을 의미한다. 이 정보를 통해 6가지 모델을 구분한다. 구분 기준은 (1) 어느 변수가 조작(intervention) 대상인지, (2) 어떤 변수들이 관측 가능한지, (3) 어떤 CI 관계가 가정되는지이다. 예를 들어, X→Y←Z 형태의 ‘공통 원인’ 구조와 X←Z→Y 형태의 ‘공통 효과’ 구조가 각각 3가지 CI 가정 하에 변형된다.

각 모델에 대해 저자는 식별 가능성(identifiability)의 충분조건을 정리한다. 핵심은 ‘전이 행렬(transition matrix)’과 ‘조건부 확률 테이블(CPT)’을 3×3 형태로 표현하고, 이를 이용해 do-연산(do(X=x)) 후의 분포 P(Y|do(X=x))를 관측 가능한 분포들의 선형 결합으로 나타낼 수 있는지를 검증한다. 특히, CI가 “Z가 X와 Y를 모두 차단한다”는 형태일 때, P(Y|do(X=x))=∑_z P(Y|X=x,Z=z)P(Z=z)와 같은 식이 성립함을 보인다. 이는 기존 이진 경우와 동일한 형태이지만, 3값 변수에서는 각 값에 대한 가중치가 필요하고, 행렬의 역행렬 존재 여부가 새로운 제약이 된다.

수학적 증명에서는 (i) 행렬의 풀랭크(full rank) 조건, (ii) 모든 조건부 확률이 0이 아닌 양의 값(positivity) 조건, (iii) 특정 CI 관계가 완전한 차단(blocking) 역할을 하는지를 확인한다. 이러한 조건이 충족되면, 관측 데이터만으로도 반사실 효과를 정확히 추정할 수 있다. 반대로, 조건이 위배될 경우 식별 불가능성을 보이며, 이를 통해 모델 선택 시 CI 가정의 중요성을 강조한다.

또한, 저자는 실제 시뮬레이션을 통해 6가지 모델 각각에 대해 식별 가능성 조건을 만족시키는 경우와 위배되는 경우를 비교한다. 결과는 3값 변수에서도 충분히 정확한 추정이 가능함을 보여주며, 특히 CI가 강하게 작용하는 ‘공통 원인’ 구조에서 가장 높은 식별 성공률을 기록한다.

이 논문의 주요 기여는 (1) 다중값 변수에 대한 반사실 인과 그래프 모델의 체계적 정의, (2) 6가지 구조별 식별 가능성의 충분조건을 명시적 행렬 형태로 제시, (3) 조건부 독립성이라는 보조 정보를 활용해 식별 문제를 해결하는 새로운 방법론을 제시한다는 점이다. 이러한 결과는 의료, 사회과학, 마케팅 등 범주형 변수가 다수인 분야에서 인과 추론을 수행할 때 이론적 기반을 제공한다.