이산 인과 표현 학습: 잠재 변수와 관측 변수의 혼합형 구조를 밝히다

본 연구는 고차원, 잡음이 섞인 관측 데이터를 통해 고수준의 잠재 변수와 그들 사이의 인과 관계를 복원하고자 하는 인과 표현 학습(Causal Representation Learning, CRL) 분야의 한계를 극복하고자 한다. 기존 방법들은 주로 딥 뉴럴 네트워크 기반의 복잡한 생성 모델에 의존하거나, 연속 잠재 변수·선형 관계·단일 환경·강력한 구조적 사전 등 제한적인 가정을 두었다. 이러한 접근은 특히 잠재 변수가 이산이며 관측이 연속·카운트·이진 등 혼합형일 때 적용이 어려웠다. 이에 저자들은 “Discrete Causal Representation Learning”(DCRL)이라는 새로운 프레임워크를 제안한다. DCRL은 두 개의 그래프 구조를 명시적으로 모델링한다. 첫 번째는 K개의 이산 잠재 변수 Z₁,…,Z_K가 형성하는 DAG G이며, 이는 잠재 변수 간의 인과 흐름을 정의한다. 두 번째는 잠재 변수와 J개의 관측 변수 X₁,…,X_J 사이를 연결하는 이분 그래프 Q (J×K 행렬)이다. Q_{j,k}=1이면 Z_k가 X_j의 직접 원인임을 의미한다. 이렇게 두 그래프를 분리함으로써 잠재‑관측 관계와 잠재‑잠재 관계를 각각 독립적으로 추정할 수 있다. 잠재 변수의 사전 분포 p(Z)는 G에 따라 마코프 분해(p(Z)=∏ₖp(Z_k|Pa_G(k)))를 만족한다. 관측 변수 X_j는 일반화 선형 모델 형태의 조건부 분포 ParForm_j(g_j(η_j(Z),γ_j)) 로 정의된다. 여기서 η_j(Z)=β_j^T φ(Z)이며, φ(Z)는 2^K 차원의 이진 특성 벡터(모든 부분집합에 대한 모노미얼)이다. β_j는 Q에 의해 제한된 비제로 계수를 갖고, 필요에 따라 고차 상호작용을 포함하거나 주효과만을 사용하도록 설계할 수 있다. g_j는 선형 예측값과(필요 시) 분산 파라미터 γ_j를 해당 관측 변수의 파라미터 공간 H_j에 매핑한다. 이 설계는 연속, 카운트, 이진, 범주형 등 다양한 응답 유형을 하나의 프레임워크 안에 포괄한다. 식별성 이론은 논문의 핵심 기여 중 하나이다. 저자들은 “일반 식별성”(generic identifiability)과 “엄격 식별성”(strict identifiability) 두 수준의 결과를 제시한다. 일반 식별성은 파라미터 집합(잠재 분포 p, 측정 행렬 B, 분산 파라미터 γ)와 그래프 구조(G,Q)가 관측 분포 P(X) 로부터 거의 모든 파라미터 설정에 대해 유일하게 복원된다는 것을 의미한다. 이는 잠재 변수 라벨 교환(permution) 외에는 어떠한 동형 변환도 존재하지 않음을 뜻한다. 엄격 식별성은 추가적인 설계 조건(예: Q가 충분히 희소하고, η_j가 충분히 비선형) 하에서 식별성을 완전하게 보장한다. 이러한 결과는 연속 잠재 변수 모델이 겪는 스케일·순열 불확실성을 피하고, 이산 잠재 변수만을 가정함으로써 더 작은 동형 클래스에 머무를 수 있음을 보여준다. 알고리즘적 구현은 3단계 파이프라인으로 구성된다. 1️⃣ **Stage I – 추정**: SAEM(확률적 근사 EM) 알고리즘에 L1·L2 혼합 페널티를 적용해 (p, B, γ)와 Q를 동시에 추정한다. 스펙트럼 초기화를 통해 전역 최적점에 가까운 초기값을 제공하고, 희소성을 강제해 과적합을 방지한다. 2️⃣ **Stage II – 재샘플링**: 추정된 파라미터를 이용해 잠재 변수 Z의 사후 분포를 샘플링한다. 이렇게 얻은 “재구성된” 잠재 데이터셋은 실제 잠재 분포에 근접하도록 충분히 큰 샘플 크기를 사용한다. 3️⃣ **Stage III – 인과 탐색**: 재샘플링된 Z에 대해 점수 기반 인과 탐색 알고리즘 GES(Greedy Equivalence Search)를 적용한다. 저자들은 GES가 추정된 잠재 분포가 진짜 분포에 일정 속도로 수렴하면, 점수 함수의 로컬 일관성(local consistency)과 결합해 Markov 등가 클래스 내의 올바른 DAG를 일관적으로 찾을 수 있음을 증명한다. 이론적 분석은 두 가지 주요 질문에 답한다. 첫째, “관측 분포만으로 (G,Q)와 (p,B,γ)를 식별할 수 있는가?” 둘째, “추정된 잠재 분포가 완전한 것이 아니라면, GES가 여전히 올바른 인과 구조를 복원할 수 있는가?” 두 질문 모두 정량적 조건(예: 추정 오차와 재샘플링 크기의 관계)을 제시해 일관성을 보장한다. 실험은 두 도메인에서 수행되었다. - **교육 평가 데이터**: 학생들의 문항 응답을 관측 변수로, 각 문항이 요구하는 “기술(skill)”을 잠재 변수로 설정하였다. DCRL은 Q를 통해 각 문항이 어떤 기술에 의존하는지를 명확히 밝혀냈으며, 복원된 G는 기술 간의 인과 흐름(예: 기본 산술 → 복합 문제 해결)을 재현했다. 기존 딥 CRL 방법에 비해 구조 회복 정확도와 해석 가능성이 크게 향상되었다. - **합성 이미지 데이터**: MNIST‑like 이미지에 대해 픽셀을 관측 변수, 색상·형태·위치 등을 이산 잠재 요인으로 모델링하였다. DCRL은 Q를 통해 특정 픽셀 집합이 어떤 잠재 요인에 의해 생성되는지를 파악했고, 복원된 G는 색상 → 형태 → 위치와 같은 직관적인 인과 순서를 보여주었다. 전반적으로 DCRL은 (1) 이산 잠재 변수와 혼합형 관측을 동시에 다루는 일반화된 생성 모델, (2) 단일 관측 분포만으로 완전한 구조 식별성을 증명한 이론적 토대, (3) 실용적인 3단계 추정‑재샘플‑인과 탐색 파이프라인을 제공함으로써, 인과 표현 학습 분야에 새로운 패러다임을 제시한다. 특히 의료·교육·심리학 등에서 “잠재 상태가 이산이며 관측이 복합형”인 상황에 바로 적용 가능하다는 점이 큰 강점이다.

이산 인과 표현 학습: 잠재 변수와 관측 변수의 혼합형 구조를 밝히다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기