불확실한 인과 그래프를 메타학습으로 추정하는 인터벤션 분포
초록
관측 데이터만으로 인과 그래프가 불확실한 상황에서, 베이지안 모델 평균을 직접 학습하는 트랜스포머 기반 뉴럴 프로세스(MACE‑TNP)를 제안한다. 이 모델은 복잡한 그래프·함수 후방분포와 평균 과정을 amortize하여, 관측 데이터로부터 즉시 개입 후분포를 예측한다. 실험에서 기존 베이지안 방법들을 능가함을 보였다.
상세 분석
본 논문은 인과 추론에서 가장 근본적인 난제인 “구조 불확실성”을 메타러닝 프레임워크로 해결하고자 한다. 전통적인 베이지안 인과 모델은 그래프 G와 함수 집합 f에 대한 사후 p(G,f|D_obs)를 추정한 뒤, 각 샘플에 대해 p(x_i|do(x_j),G,f)를 계산하고 평균한다(식 3). 그러나 그래프 수는 노드 수 D에 대해 초지수적으로 증가하고, 함수 사후는 비선형·비가우시안 경우 닫힌 형태가 없기 때문에 두 단계 모두 계산 비용이 폭발한다.
논문은 이러한 병목을 Neural Process(NP)와 Transformer 구조를 결합한 MACE‑TNP로 대체한다. NP는 “데이터‑대‑분포” 매핑을 학습함으로써 베이지안 사전과 사후를 암묵적으로 인코딩한다. 구체적으로, 저자는 베이지안 인과 모델(BCM)에서 샘플링된 (G,f)쌍을 이용해 관측 데이터 D_obs와 개입 데이터 D_int를 생성하고, 이를 메타‑태스크로 구성한다. 각 태스크는 (D_obs, i, j, x_j) 형태이며, 목표는 p_BCM(x_i|do(x_j),D_obs)와 모델 출력 p_θ(x_i|do(x_j),D_obs) 사이의 KL 발산을 최소화하는 것이다(식 4).
핵심 설계는 다음과 같다. ① 입력으로 관측 샘플 집합을 토큰화하고, ② 질의 토큰(do‑intervention)과 결합해 Transformer 인코더‑디코더 구조에 전달한다. ③ 디코더는 개입 변수값 x_j와 목표 변수 i를 조건으로 하여, 목표 변수의 사후 분포를 가우시안 믹스처 혹은 연속 확률밀도 형태로 출력한다. 이 과정에서 그래프 구조와 함수 형태에 대한 명시적 추정이 전혀 필요 없으며, 학습 과정 자체가 그래프·함수 공간을 샘플링해 평균화하는 역할을 수행한다.
이론적으로는 NP가 베이지안 사후를 근사한다는 보장이 존재한다(예: “Neural Processes as Conditional Neural Processes”에서 제시된 KL 최소화). 실험에서는 (1) 폐쇄형 선형·가우시안 SCM에서 정확히 알려진 사후와의 수렴을 확인하고, (2) 비선형·다중모드 함수와 복잡한 DAG(노드 10~20)에서 기존 MCMC·VI 기반 베이지안 방법보다 RMSE와 로그우도 측면에서 우수함을 입증한다. 특히, 그래프 수가 2^D·D! 수준으로 급증하는 상황에서도 MACE‑TNP은 한 번의 전방패스만으로 개입 분포를 제공하므로 실시간 의사결정에 적합하다.
또한, 저자는 모델이 “식별 가능”한 경우(예: 충분한 데이터와 제한된 함수 클래스)에는 사후가 진정한 그래프에 집중함을, “비식별” 상황에서는 다중모드 사후를 유지함을 시각화한다. 이는 메타‑학습이 베이지안 불확실성을 자연스럽게 반영한다는 중요한 통찰을 제공한다. 마지막으로, 트랜스포머 기반 NP가 대규모 데이터와 고차원 변수에 대해 확장 가능함을 보여주어, 향후 생물학·경제·사회과학 등 복잡한 인과 네트워크에 적용할 여지를 넓힌다.
댓글 및 학술 토론
Loading comments...
의견 남기기