다중 상황에서의 통합 인과 추론: Joint Causal Inference
JCI는 여러 실험·관찰 상황을 하나의 구조적 인과 모델에 통합해, 배경 지식만으로 기존 인과 탐색 알고리즘을 그대로 적용하도록 하는 프레임워크이다. 컨텍스트 변수를 명시하고, 데이터셋을 풀링한 뒤, 적절한 제약을 부여해 완전·불완전·확률적 개입까지 모두 다룰 수 있다. 실험 결과는 합성 데이터와 흐름 세포질 데이터 모두에서 기존 최첨단 방법을 능가함을 보여준다.
저자: Joris M. Mooij, Sara Magliacane, Tom Claassen
본 논문은 “Joint Causal Inference (JCI)”라는 새로운 인과 추론 프레임워크를 제안한다. JCI는 여러 서로 다른 상황(context)에서 수집된 데이터셋을 하나의 구조적 인과 모델에 통합함으로써, 실험적 개입과 순수 관찰 데이터 모두를 동시에 활용한다. 기존 인과 탐색 방법들은 보통 단일 상황(단일 데이터셋)에서만 적용 가능했으며, 개입 종류가 명확히 알려진 경우에만 효과적이었다. JCI는 이러한 제한을 넘어, (i) 컨텍스트 변수를 명시적으로 모델에 포함하고, (ii) 모든 데이터셋을 풀링한 뒤, (iii) 배경 지식(예: 컨텍스트 변수가 시스템 변수에 의해 원인되지 않는다, 혹은 특정 방향성만 존재한다)을 이용해 표준 인과 탐색 알고리즘을 적용한다는 세 단계 절차를 제시한다.
JCI의 핵심 가정은 다음과 같다. 첫째, 각 컨텍스트 변수는 외부 요인에 의해 결정되며 시스템 변수 X₁,…,Xₙ에 의해 직접 원인되지 않는다(JCI Assumption 1). 둘째, 컨텍스트 변수와 시스템 변수 사이의 인과 관계는 사전에 정의된 제약(예: “C → X” 혹은 “C ⟂ X”)에 의해 제한될 수 있다(JCI Assumption 2). 셋째, 시스템 변수들 간의 인과 구조는 일반적인 구조적 인과 모델(SCM)로 표현되며, 숨은 공통 원인(bidirected edges)이나 피드백 루프(사이클)도 허용한다. 이러한 가정 하에, 여러 상황에서 관측된 조건부 독립성 정보를 하나의 대규모 데이터셋에 결합해 기존의 PC, FCI, GES, GIES 등 다양한 인과 탐색 알고리즘을 그대로 적용할 수 있다.
논문은 JCI가 기존 방법들의 특수 경우임을 체계적으로 보여준다. 예를 들어, 무작위 대조군 실험(RCT)은 컨텍스트 변수를 “처치 여부”로 두고, 그 변수와 시스템 변수 사이에 단방향 인과 관계만 존재한다는 제약을 추가한 경우와 동일하다. Local Causal Discovery(LCD)는 컨텍스트 변수를 “관측된 환경”으로 두고, 그 변수와 시스템 변수 사이에 인과 관계가 없다는 가정을 추가한 특수 JCI이다. Invariant Causal Prediction(ICP)은 여러 환경에서 동일한 인과 메커니즘이 유지된다는 가정을 이용하는데, 이는 JCI에서 “컨텍스트 변수와 시스템 변수 사이에 인과 관계가 없으며, 시스템 변수 간 인과 구조는 환경에 독립적이다”라는 제약과 일치한다.
기술적 구현 부분에서는, 저자들이 FCI 알고리즘을 JCI에 맞게 확장한 JCI‑FCI를 제안한다. JCI‑FCI는 기존 FCI가 다루던 ‘숨은 공통 원인’과 ‘피드백 루프’를 그대로 유지하면서, 컨텍스트 변수와 시스템 변수 사이에 사전 정의된 방향성을 강제한다. 또한, PC와 GES 같은 제약 기반 알고리즘을 JCI에 적용하기 위해, 컨텍스트 변수에 대한 배경 지식을 ‘edge blacklist’ 혹은 ‘edge whitelist’ 형태로 제공한다. 이렇게 하면, 예를 들어 “C₁ → X₂”는 허용하고 “X₂ → C₁”은 금지하는 식으로 알고리즘이 탐색 공간을 제한한다.
실험에서는 두 가지 주요 데이터셋을 사용한다. 첫 번째는 다양한 개입 유형(완전, 불완전, 확률적)과 숨은 공통 원인을 포함한 합성 데이터이다. 여기서 JCI‑FCI, JCI‑PC, JCI‑GIES 등은 기존 단일‑컨텍스트 버전보다 평균 구조 Hamming distance가 크게 감소하고, 정밀도·재현율이 모두 향상되었다. 두 번째는 유명한 흐름 세포질(flow cytometry) 데이터인 ‘Sachs’ 데이터이다. 이 데이터는 실제 생물학적 네트워크에 대한 사전 지식이 존재하며, 여러 실험 조건(다양한 약물 처리)이 포함된다. JCI 기반 방법들은 기존 최고 성능을 보인 ‘GIES’와 ‘FCI’를 능가하며, 특히 개입 정보가 불완전하게 주어졌을 때도 안정적인 인과 구조를 복원했다.
또한 저자들은 JCI가 사이클을 허용하는 DMG(Directed Mixed Graph) 모델에도 적용 가능함을 보였다. 이는 기존 DAG 기반 방법들이 적용하기 어려운 피드백이 존재하는 시스템(예: 유전자 조절 네트워크)에서도 JCI가 유용함을 의미한다.
결론적으로, JCI는 (1) 다양한 개입 형태와 관측 상황을 통합적으로 다룰 수 있는 일반적인 프레임워크, (2) 기존 강력한 인과 탐색 알고리즘을 그대로 재사용함으로써 구현 비용을 크게 낮춤, (3) 최소한의 배경 지식만으로도 정확한 인과 구조 추정이 가능하다는 세 가지 주요 장점을 제공한다. 이러한 특성은 의료, 사회과학, 생명공학 등 다중 상황 데이터가 풍부한 분야에서 인과 추론의 실용성을 크게 확대할 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기