중첩 변수와 다중 실험 데이터를 활용한 선형 순환 인과 모델 탐색

초록

본 논문은 서로 다른 실험·관찰 데이터셋이 일부 변수만 겹치는 상황에서, 선형이며 순환 구조를 허용하는 인과 모델을 통합적으로 추정하는 방법을 제시한다. 인과 충분성 가정을 포기하고 2차 통계량만 이용해 모델 식별 가능성을 이론적으로 규명하고, 신실성(faithfulness) 가정을 도입한 실용적 추론 기법을 개발한다.

상세 분석

이 연구는 과학적 데이터가 종종 여러 독립적인 실험이나 관찰 연구에서 부분적으로 겹치는 변수 집합으로 수집된다는 현실을 반영한다. 기존 인과 탐색 방법은 대부분 전체 변수 집합에 대한 단일 데이터셋을 전제로 하거나, 비순환(acyclic) 구조와 인과 충분성(causal sufficiency)을 가정한다. 그러나 실제 현장에서는 변수 간 피드백 루프가 존재할 수 있고, 일부 잠재적 교란변수가 관측되지 않을 가능성이 크다. 논문은 이러한 제약을 완화하기 위해 (1) 선형 구조를 유지하되 순환을 허용하고, (2) 인과 충분성을 포기하며, (3) 각 데이터셋이 개별적인 실험(intervention) 혹은 관찰(passive) 조건을 가질 수 있다는 점을 전제로 한다.

핵심 이론적 기여는 두 단계로 나뉜다. 첫 번째는 “완전 식별 가능성(full model identifiability)”에 대한 조건을 제시하는 것으로, 이는 여러 실험 데이터셋이 서로 다른 변수에 대한 직접적인 개입을 포함하고, 각 데이터셋이 충분히 다양한 개입 조합을 제공할 때 달성된다. 저자들은 선형 구조 방정식 모델(SEM)의 계수 행렬을 각 실험 조건 하에서 관측된 공분산 행렬과 연결시키는 식을 유도하고, 이 식들의 연립 방정식이 유일해지는 경우를 정리한다. 특히, 변수 집합이 부분적으로 겹치는 경우에도, 겹치는 변수들을 매개로 한 “전이 행렬(transition matrix)”을 정의함으로써 전체 네트워크를 연결할 수 있음을 보인다.

두 번째는 신실성 가정을 도입해 식별이 불가능한 경우에도 가능한 부분 구조를 추론하는 방법이다. 신실성은 인과 관계가 통계적 독립성(또는 조건부 독립성)과 일대일 대응한다는 가정으로, 이를 통해 “가능한 인과 방향(possible causal direction)”과 “불가능한 방향(impossible direction)”을 구분한다. 논문은 신실성 기반의 제약을 공분산 행렬의 구조적 제로(zero) 패턴에 매핑하고, 이를 선형 프로그램 형태로 최적화하여 가장 제한적인(즉, 가장 많은 정보를 제공하는) 인과 그래프를 얻는다.

알고리즘적으로는 (i) 각 데이터셋별로 공분산 행렬을 추정하고, (ii) 개입 변수와 관측 변수의 매핑을 통해 계수 행렬에 대한 선형 제약식을 구성하며, (iii) 신실성 제약을 추가한 선형/정수 최적화 문제를 풀어 최종 인과 그래프를 도출한다. 실험에서는 합성 데이터와 실제 유전학·뇌영상 데이터에 적용해, 기존 비순환 전용 방법보다 높은 정확도와 회복률을 보였으며, 특히 변수 겹침이 심한 경우에도 안정적인 추정이 가능함을 입증한다.

이 논문의 제한점으로는 (1) 선형성 가정이 비선형 시스템에 직접 적용되기 어렵고, (2) 고차원(수천 변수) 상황에서 최적화 문제의 계산 복잡도가 급증한다는 점이 있다. 향후 연구에서는 비선형 확장, 차원 축소 기법, 그리고 베이지안 프레임워크와의 통합을 통해 실용성을 더욱 강화할 여지가 있다.