비가우시안 선형 인과 모델 자동 발견
초록
본 논문은 관측 데이터만으로 선형·비가우시안·무순환 인과 구조를 완전 복원하는 방법을 제시한다. 독립 성분 분석(ICA)을 이용해 각 변수의 외생 교란을 분리하고, 이를 통해 인과 방향과 연결 강도를 추정한다. 가정은 (1) 선형 관계, (2) 숨은 교란 변수 없음, (3) 교란이 비가우시안 분포를 가진다는 점이다. MATLAB 구현 패키지와 인공 데이터 실험을 통해 알고리즘의 정확성을 검증한다.
상세 분석
LiNGAM(Linear Non‑Gaussian Acyclic Model)은 전통적인 구조 방정식 모델(SEM)과 베이즈 네트워크가 요구하는 강력한 가정—예를 들어 가우시안 교란이나 사전 순서 지정—을 완화한다. 논문은 세 가지 핵심 전제를 명시한다. 첫째, 모든 변수는 서로 선형 결합으로 표현되며, 이는 행렬 형태 X = B X + e 로 나타낼 수 있다. 여기서 B는 인과 구조를 담은 가중치 행렬이고, e는 외생 교란 벡터이다. 둘째, 교란 변수 e_i는 서로 독립이며 비가우시안 분포를 가진다. 비가우시안성은 ICA가 고유하게 혼합 행렬을 복원할 수 있게 하는 핵심 조건이다. 셋째, 순환 구조가 없으므로 B는 비상대적(acyclic)이며, 위상 정렬에 의해 대각선 위에만 비영(非零) 원소가 존재한다는 점이다.
이러한 전제 하에, 관측 데이터 X는 독립 성분 분석의 입력으로 사용될 수 있다. ICA는 X = A s 형태의 모델을 가정하고, 여기서 A는 혼합 행렬, s는 독립 성분(즉, 교란 e)이다. LiNGAM에서는 A가 (I − B)^{-1}와 동일함을 이용한다. ICA 알고리즘(예: FastICA)을 적용해 A를 추정하면, 역행렬을 통해 B = I − A^{-1}를 직접 계산할 수 있다. 이때 B의 비대각선 원소가 양수이면 원인 → 결과 방향을 의미하고, 음수이면 반대 방향을 의미한다.
하지만 ICA는 스케일과 순서에 대한 불확정성을 내포한다. 논문은 이를 해결하기 위해 (i) 각 교란의 분산을 1로 정규화하고, (ii) B 행렬을 위상 정렬 알고리즘(예: Kahn’s algorithm)으로 재배열해 비상대적 형태를 강제한다. 또한, 추정된 B가 실제 인과 구조와 일치하는지 검증하기 위해 잔차 독립성 검정(예: HSIC)과 부트스트랩 기반 신뢰구간을 제시한다.
실험에서는 5~10개의 변수와 다양한 비가우시안 분포(예: 지수, 카이제곱, 혼합 가우시안)를 가진 교란을 사용해 데이터셋을 생성하였다. 알고리즘은 평균 정확도 95% 이상을 기록했으며, 특히 기존의 선형 가우시안 가정 기반 PC 알고리즘이나 GES와 비교해 방향 오류가 현저히 적었다. 또한, 샘플 크기가 500 이하에서도 비교적 안정적인 복원을 보여, 실제 연구에서 제한된 데이터량에도 적용 가능함을 시사한다.
결론적으로, LiNGAM은 비가우시안 교란이라는 자연스러운 가정을 활용해 인과 구조를 식별하는 강력한 도구이며, ICA와 위상 정렬이라는 두 단계 절차만으로 구현이 간단하고 확장성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기