엔트로피 기반 인과 추론: 최소 외생 변수 엔트로피와 인과 방향 식별

본 논문은 두 이산 확률 변수 X와 Y 사이의 인과 방향을 관측 데이터만으로 식별하는 문제에 접근한다. 기존 방법들은 가법 잡음 모델(ANM)이나 원인‑기전 독립성 가정 등 강력한 구조적 제약을 두어야 했지만, 저자들은 가장 일반적인 함수 형태 Y = f(X,E)를 유지하면서 외생 변수 E의 “단순성”을 레니 엔트로피(Hₐ)로 측정한다. 여기서 단순성은 두 가지 형태로 정의된다: H₀는 외생 변수의 상태 수(카디날리티)의 로그이며, H₁은 샤논 엔트로피이다. 핵심 가정(Assumption 1)은 진짜 인과 방향에서는 외생 변수 E가 낮은 엔트로피를 갖는다는 것이다. 이를 정량화하기 위해 저자들은 “블록 파티션 행렬”이라는 구조를 도입한다. 조건부 확률 행렬 Y|X가 0‑1 행렬 M과 확률 벡터 e의 곱으로 표현될 때, M은 각 블록이 서로 겹치지 않는 형태이며, 이때 외생 변수의 상태 수는 M의 열 수와 동일하다. 이와 같은 표현이 가능하면 X→Y라는 인과 모델이 존재한다는 것이 Lemma 1의 내용이다. 다음으로, 모든 가능한 결합 분포 p(X,Y) 에 대해 외생 변수 E의 최소 상태 수를 상한으로 n(n‑1)+1 (n은 변수의 알파벳 수) 로 제시한다(Lemma 2). 이는 일반적인 경우 외생 변수가 작은 카디날리티를 가질 수 없음을 의미한다. 반대로, 진짜 인과 방향에서는 특수한 함수 f와 외생 변수 E가 존재해 E의 카디날리티가 매우 작을 수 있다. 저자들은 이러한 비대칭성을 이용해 인과 방향을 판별한다. 구체적으로, X→Y 방향에서 최소 H₀(E) 혹은 H₁(E)를 구하고, 반대 방향 X←Y에서 동일한 과정을 수행한다. 두 방향 중 전체 엔트로피 Hₐ(X)+Hₐ(E)와 Hₐ(Y)+Hₐ(Ē) 중 더 작은 쪽을 진짜 인과 방향으로 선택한다. 알고리즘적 난이도 분석에서는 최소 H₀(E)와 최소 H₁(E) 문제 모두 NP‑hard임을 증명한다. 특히 최소 샤논 엔트로피 결합(Min‑Entropy Coupling) 문제와 동치임을 보이며, 이는 n개의 마진 분포가 주어졌을 때 전체 결합 분포의 엔트로피를 최소화하는 문제이다. 이 문제는 기존에 알려진 바와 같이 일반적으로 계산이 어려우므로, 저자들은 탐욕적 근사 알고리즘을 제안한다. 알고리즘은 각 단계에서 가장 큰 확률 질량을 공유하는 상태들을 결합해 새로운 joint distribution을 만든다. n=2인 경우에는 이 탐욕 알고리즘이 항상 로컬 최적을 보장한다는 정리를 증명한다. 실험에서는 이 알고리즘이 실제 데이터에서도 전역 최적에 근접함을 확인하였다. 실험 부분에서는 두 종류의 평가를 수행한다. 첫째, 합성 데이터에서 H₀와 H₁ 기반 판별기의 정확도를 측정한다. 여기서 H₁(샤논 엔트로피) 기반 방법은 잡음과 표본 오차에 대해 비교적 강건함을 보이며, H₀ 기반 방법은 카디날리티 추정이 어려워 성능이 떨어진다. 둘째, 실제 인과 관계가 라벨링된 공개 데이터셋(CauseEffectPairs 등)에서 제안된 H₁ 기반 인과 추론기를 적용한다. 결과는 최신 가법 잡음 모델(ANM, IGCI 등)과 비교했을 때 정확도와 AUC에서 동등하거나 약간 우수한 성능을 기록한다. 특히 이 방법은 변수의 실제 값이 아니라 오직 분포만을 사용하기 때문에 순서형 변수뿐 아니라 명목형(카테고리) 변수에도 바로 적용 가능하다는 실용적 장점이 있다. 결론적으로, 논문은 인과 방향을 결정하는 새로운 정보‑이론적 기준을 제시하고, 그 기준을 구현하기 위한 이론적 정당성, 복잡도 분석, 실용적인 탐욕 알고리즘, 그리고 광범위한 실험 검증을 모두 제공한다. 이는 기존의 가법 잡음 모델이 갖는 연속성·가우시안 가정의 제한을 넘어, 이산·명목형 데이터에 대한 일반적인 인과 추론 프레임워크를 제공한다는 점에서 학술적·실용적 의의가 크다.

엔트로피 기반 인과 추론: 최소 외생 변수 엔트로피와 인과 방향 식별

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기