N 변수 간 인과 관계 식별을 위한 최소 실험 수

N 변수 간 인과 관계 식별을 위한 최소 실험 수

초록

본 논문은 잠재 변수·선택 편향·피드백이 없는 DAG에서, 한 실험에 여러 변수를 동시에 무작위화할 수 있을 때 N ≥ 2개의 변수 전체 인과 구조를 밝히는 데 필요한 실험 횟수의 상한과 하한을 제시한다. 모든 변수를 자유롭게 섞어 실험하면 ⌈log₂N⌉ + 1번이 충분하고 최악의 경우에도 필요함을 증명한다. 또한 한 실험당 K (0 < K < N/2)개의 변수만 무작위화할 수 있는 상황에 대한 상한을 구하고, K가 N/2보다 작을 때 (N/kₘₐₓ − 1) + N/(2kₘₐₓ)·log₂kₘₐₓ 번이 충분하고 필요함을 보인다. 기존의 한 번에 하나씩 변수만 조작하는 N − 1번 실험 규칙보다 훨씬 효율적이다. 마지막으로 관측 변수만으로 이루어진 DAG의 최적 실험 수에 대한 추측을 제시한다.

상세 분석

이 연구는 인과 구조 탐색에서 실험 설계의 효율성을 정량적으로 분석한 드문 사례이다. 가정은 전형적인 인과 베이즈 네트워크와 동일하게, (1) 모든 변수는 관측 가능하고, (2) 잠재 변수나 선택 편향이 없으며, (3) 그래프는 사이클이 없는 DAG라는 점이다. 이러한 전제 하에, 실험은 ‘무작위화(intervention)’라는 형태로 모델링되며, 한 실험에서 임의의 변수 집합 S⊆V를 동시에 독립적으로 무작위화할 수 있다. 무작위화된 변수는 외부 요인에 의해 완전히 통제되므로, 그 변수들의 모든 인-엣지는 차단되고, 나머지 변수들 사이의 조건부 독립성 관계가 바뀐다. 논문은 두 종류의 테스트를 정의한다. 첫째, ‘방향 테스트’는 한 변수 X가 무작위화되고 다른 변수 Y가 관측될 때, X→Y 혹은 Y→X 중 어느 방향이 가능한지를 판단한다. 둘째, ‘인접성 테스트’는 두 변수가 동시에 무작위화될 때, 그 사이에 직접적인 인과 연결이 존재하는지를 확인한다. 이러한 테스트를 조합하면, 하나의 실험이 O(|S|·(N−|S|))개의 변수 쌍에 대해 정보를 제공한다는 점을 이용한다.

주요 정리는 다음과 같다. 모든 변수 집합을 자유롭게 선택할 수 있을 때, ⌈log₂N⌉ 단계의 ‘이분법적’ 실험 설계가 가능하다. 첫 번째 실험에서는 변수들을 절반씩 무작위화해 서로 다른 두 그룹 간의 방향을 모두 확인한다. 이후 각 그룹에 대해 재귀적으로 동일한 절반 분할을 수행하면, 로그₂N 단계 후에는 모든 변수 쌍에 대해 방향 테스트가 완료된다. 마지막 한 번의 실험에서는 전체 변수를 동시에 무작위화해 남은 인접성(존재 여부) 테스트를 수행한다. 따라서 총 ⌈log₂N⌉ + 1번이 충분함을 보인다.

반면 최악의 경우 필요함을 보이기 위해, 저자는 ‘완전 연결 DAG’(즉, 모든 가능한 방향이 존재하는 경우)를 가정한다. 이 경우 각 실험이 제공할 수 있는 새로운 정보는 제한적이며, 로그₂N + 1번보다 적게는 모든 방향을 확정할 수 없음을 증명한다. 따라서 ⌈log₂N⌉ + 1은 상한이자 하한이다.

K가 제한된 경우(한 실험당 K < N/2 변수만 무작위화 가능)에는, 먼저 N/kₘₐₓ 번의 ‘대규모’ 실험을 통해 각 그룹을 K개씩 나누어 서로 다른 그룹 간의 방향을 파악한다. 이후 각 그룹 내부에 대해 ⌈log₂kₘₐₓ⌉ 단계의 재귀적 실험을 수행한다. 이때 인접성 테스트를 위해 추가로 N/(2kₘₐₓ)·⌈log₂kₘₐₓ⌉ 번이 필요하므로, 총 (N/kₘₐₓ − 1) + N/(2kₘₐₓ)·log₂kₘₐₓ 번이 충분하고 최악의 경우에도 필요함을 보인다. 이 결과는 기존에 알려진 ‘하나씩 무작위화’ 전략이 요구하는 N − 1번보다 크게 절감된다.

마지막으로 저자는 관측 변수만으로 이루어진 DAG에서, 실험 설계가 제한되지 않을 때 최소 실험 수가 ⌈log₂N⌉ + 1인지, 혹은 더 낮은 수가 가능한지에 대한 추측(conjecture)을 제시한다. 이는 현재 증명되지 않은 열린 문제이며, 향후 연구에서 복합적인 무작위화 패턴과 정보 이론적 한계 사이의 관계를 탐구할 필요가 있다.

전체적으로 이 논문은 인과 탐색에서 실험 설계의 복합성을 정량화하고, 실험 비용을 최소화하기 위한 이론적 가이드라인을 제공한다는 점에서 의미가 크다. 특히 대규모 시스템(예: 유전체, 신경망, 사회 시스템)에서 다중 변수 무작위화가 가능한 경우, 로그 규모의 실험 수만으로 전체 인과 구조를 복원할 수 있다는 결과는 실용적인 파급 효과를 기대하게 만든다.