독립성분분석으로 순환 인과모델 찾기

독립성분분석으로 순환 인과모델 찾기

초록

본 논문은 Shimizu 등(2006)의 ICA 기반 LiNGAM 방법을 확장하여, 비가우시안 선형 구조방정식 모델(LiNG)에서 사이클(순환) 구조를 허용하는 인과관계 탐색 알고리즘을 제시한다. 인과 충분성을 가정하고 관측 데이터만으로 그래프의 방향성을 추정하며, 결과는 분포 동등 클래스(distribution equivalence class) 형태로 제공된다. 또한, 큰 표본 한계에서 유일하게 ‘안정(stable)’한 SEM을 선택할 수 있는 충분조건을 제시하고, 시뮬레이션을 통해 알고리즘의 정확성을 검증한다.

상세 분석

이 논문은 기존 LiNGAM이 전제하는 ‘비순환(acyclic)’ 가정을 완전히 포기하고, 순환 구조를 포함한 일반적인 선형 비가우시안 SEM(Linear non‑Gaussian SEM, 이하 LiNG) 모델을 식별하는 방법론을 제시한다. 핵심 아이디어는 독립성분분석(ICA)을 이용해 관측 변수들의 혼합 행렬을 추정하고, 이 행렬을 통해 구조적 인과 행렬 B를 복원하는 것이다. 기존 LiNGAM에서는 B가 비가역적이며, B의 고유값이 1보다 작아야(즉, 역행렬이 존재) 순환이 없다고 가정한다. 그러나 여기서는 B가 고유값 1을 포함할 수 있는 일반적인 경우를 허용한다.

논문은 먼저 LiNG 모델을 X = B X + e 로 표현하고, 이를 (I‑B)X = e 로 변형한다. 여기서 e는 서로 독립적인 비가우시안 잡음 벡터이며, (I‑B)⁻¹는 관측 변수들의 선형 혼합 행렬 A와 동일시된다. ICA는 A를 추정하고, 그 역행렬을 통해 (I‑B)를 복원한다. 하지만 (I‑B)는 순환이 존재하면 고유값 0을 가질 수 있어 직접적인 역행렬 계산이 불가능하다. 이를 해결하기 위해 저자들은 ‘정규화된 고유값 분해’를 도입하여, (I‑B)의 영공간(null space)을 식별하고, 가능한 B 행렬들의 집합을 구성한다.

다음 단계는 이 집합에서 실제 데이터 분포와 일치하는 SEM을 선택하는 것이다. 저자들은 ‘분포 동등 클래스(distribution equivalence class)’라는 개념을 도입한다. 이는 동일한 관측 분포를 생성할 수 있는 모든 B 행렬들의 모임이며, ICA 기반 추정은 이 클래스 전체를 반환한다. 따라서 추가적인 제약이 없으면 순환 구조를 정확히 구분할 수 없으며, 클래스 내 여러 모델이 존재한다.

이를 극복하기 위해 논문은 ‘안정성(stability)’ 조건을 제시한다. 안정성은 동적 시스템 관점에서 모든 고유값의 절댓값이 1보다 작을 때 시스템이 수렴한다는 의미이며, 이는 (I‑B)⁻¹의 스펙트럼 반경이 1보다 작다는 조건과 동치이다. 저자들은 충분조건으로 (i) 잡음이 비가우시안이며 서로 독립, (ii) B가 최소 하나의 고유값을 1보다 작게 갖는 경우, 그리고 (iii) 관측 변수가 충분히 많아 (I‑B)의 영공간 차원을 정확히 추정할 수 있는 경우에 한해, 클래스 내 유일한 안정적인 SEM을 식별할 수 있음을 증명한다.

시뮬레이션 실험에서는 3~5개의 변수와 다양한 순환 구조(예: 2‑node cycle, 3‑node feedback loop)를 가진 데이터를 생성하고, 제안된 알고리즘을 적용하였다. 결과는 기존 LiNGAM이 순환을 무시하고 잘못된 DAG를 반환하는 반면, 본 알고리즘은 정확히 올바른 순환 구조를 포함한 B 행렬을 복원하거나, 최소한 안정성 기준에 따라 유일한 모델을 선택함을 보여준다. 또한 표본 크기가 증가할수록 분포 동등 클래스가 실제 모델에 수렴하는 속도가 급격히 빨라짐을 확인하였다.

이 논문의 주요 기여는 다음과 같다. 첫째, 비가우시안 선형 SEM에서 순환을 허용하는 일반화된 ICA 기반 식별 프레임워크를 제시하였다. 둘째, 분포 동등 클래스라는 새로운 해석적 개념을 도입해, 관측 데이터만으로는 완전한 인과 구조를 복원하기 어려운 근본적 한계를 명시하였다. 셋째, 안정성 조건을 이용해 클래스 내 유일한 ‘실제’ 모델을 선택할 수 있는 충분조건을 제공함으로써 실용적인 모델 선택 기준을 마련하였다. 넷째, 시뮬레이션을 통해 제안된 방법의 정량적 성능을 검증하고, 기존 LiNGAM 대비 순환 구조 탐지 능력이 현저히 향상됨을 입증하였다.

향후 연구 과제로는 (1) 비선형 또는 혼합형(가우시안·비가우시안) 잡음이 존재하는 경우의 확장, (2) 부분 관측(잠재 변수) 상황에서의 식별 가능성 분석, (3) 대규모 변수 집합에 대한 계산 효율성 개선 등이 제시된다. 특히, 고차원 데이터에서 영공간 차원을 정확히 추정하는 문제는 현재 ICA 기반 방법의 병목으로 남아 있어, 정규화된 고유값 분해와 스파스 모델링을 결합한 새로운 알고리즘 개발이 필요하다.