숨은 변수와 인과 모델의 검증 가능성

초록

이 논문은 관측되지 않은(숨은) 변수들이 존재할 때 인과 모델이 데이터 분포에 부과하는 제약을 두 종류, 즉 조건부 독립성과 함수적 제약으로 구분하고, 특히 함수적 제약을 체계적으로 식별하는 방법을 제시한다. 이를 통해 숨은 변수를 포함한 인과 모델의 검증과 학습이 가능해진다.

상세 분석

본 연구는 인과 그래프 이론에서 핵심적인 문제인 “숨은 변수(hidden variable)”가 존재할 때 모델이 실제 데이터와 일치하는지를 판단할 수 있는 구체적 기준을 제공한다. 기존에는 d-분리(d‑separation) 규칙을 이용해 조건부 독립성(constitional independence)만을 검증할 수 있었으며, 이는 관측 가능한 변수들 사이의 관계만을 다루는 한계가 있었다. 그러나 숨은 변수가 개입하면 관측 변수들 사이에 단순한 독립성으로는 설명되지 않는 복잡한 함수적 제약(functional constraints)이 발생한다. 이러한 제약은 “Verma‑Pearl constraints” 혹은 “instrumental inequality” 등으로 알려져 있으나, 일반적인 그래프 구조에 대해 자동으로 도출할 수 있는 알고리즘은 부재했다.

논문은 먼저 인과 모델을 구조적 방정식 모델(structural equation model, SEM) 형태로 정의하고, 숨은 변수를 포함한 DAG(directed acyclic graph)를 고려한다. 그런 다음, 잠재 변수에 의해 생성되는 잠재적 잠재분포(latent distribution)를 매개변수화하고, 관측 변수들의 마진(marginal) 분포가 만족해야 하는 다항식 방정식 집합을 유도한다. 핵심 아이디어는 “c‑component”라는 그래프 이론적 개념을 이용해 숨은 변수들의 영향을 동일한 컴포넌트 안에 묶고, 각 컴포넌트에 대해 “nested Markov property”를 적용함으로써 함수적 제약을 체계적으로 추출하는 것이다.

알고리즘은 크게 두 단계로 구성된다. 첫 번째 단계에서는 d‑separation을 이용해 모든 조건부 독립성을 식별하고, 이를 그래프에서 제거한다. 두 번째 단계에서는 남은 구조에 대해 “fixing operation”을 수행해 변수들을 순차적으로 고정(fix)하면서, 고정된 변수들의 조건부 분포가 기존 분포와 일치하도록 하는 다항식 관계를 도출한다. 이 과정에서 얻어지는 식들은 숨은 변수에 의해 강제되는 함수적 제약을 정확히 나타낸다. 논문은 이 절차가 다항식 시간 복잡도를 갖는다고 주장하며, 실제 데이터에 적용 가능한 구현 예시도 제공한다.

또한, 저자들은 제안된 방법을 기존의 인과 탐색 알고리즘(예: PC, FCI)과 비교하여, 숨은 변수가 존재할 때 더 높은 검증 파워를 보임을 실험적으로 입증한다. 특히, 숨은 변수에 의해 생성된 “instrumental variable” 구조에서 기존 방법이 놓치는 제약을 정확히 포착함으로써, 잘못된 인과 추론을 방지한다는 점을 강조한다. 이와 같은 기여는 인과 모델 검증을 위한 이론적 토대를 확장하고, 실무에서 숨은 변수를 고려한 보다 정교한 인과 분석을 가능하게 만든다.