재귀 구조방정식 모델 식별을 위한 그래프 조건

초록

본 논문은 관측된 변수들의 통계적 데이터와 인과관계를 나타내는 DAG를 결합해, 선형 구조방정식 모델(SEM)의 직접 인과효과를 고유하게 추정할 수 있는 충분조건을 제시한다. 제안된 그래프 기반 조건은 기존의 도구변수·단일문턱법보다 일반적이며, 재귀(비순환) SEM의 식별성을 판단하는 새로운 기준을 제공한다.

상세 분석

논문은 먼저 인과추론에서 핵심적인 문제인 ‘식별성(identification)’을 정의한다. 구조방정식 모델이란 각 변수 Xᵢ가 선형 결합 형태로 부모 변수와 오차항의 합으로 표현되는 시스템이며, 이 시스템을 DAG로 시각화한다. DAG의 방향은 인과적 선후관계를 나타내고, 순환이 없을 경우 모델을 ‘재귀적’이라고 부른다. 식별성은 주어진 관측 데이터와 DAG가 제시하는 제약조건만으로 모델의 모든 구조적 파라미터(직접 인과효과)를 유일하게 복원할 수 있음을 의미한다. 기존 연구에서는 단일문턱(Back‑Door) 기준, 도구변수(Instrumental Variable), 그리고 최근의 ‘Half‑Trek’ 조건 등이 충분조건으로 제시되었지만, 각각은 적용 가능한 그래프 형태에 제한이 있었다.

본 논문은 이러한 제한을 극복하기 위해 ‘그래프적 식별 조건(Graphical Condition for Identification, GCI)’을 제안한다. 핵심 아이디어는 각 목표 변수 Y에 대해, Y의 직접 원인 집합 Pa(Y)와 독립적인 보조 변수 집합 Z를 찾아, Z가 Pa(Y)와 d‑separation 관계에 있으면서 동시에 Z가 Y에 대한 ‘전이 경로’를 차단하지 않는다는 점을 보장하는 것이다. 구체적으로, 논문은 다음과 같은 두 가지 요구조건을 제시한다. 첫째, Z는 Y와 그 부모 집합 Pa(Y) 사이에 모든 ‘백도어 경로’를 차단해야 한다(d‑separation). 둘째, Z는 Y에 대한 ‘전방 경로’를 유지해야 하며, 이는 Z가 Y의 구조적 파라미터를 추정하는 데 충분한 변동성을 제공함을 의미한다. 이러한 조건은 기존 도구변수 조건을 일반화한 형태이며, 특히 ‘bow‑free’(동일 변수 쌍에 동시에 직접 효과와 역효과가 존재하지 않음) 가정 없이도 적용 가능하다.

정리 1에서는 위 조건을 만족하는 Z가 존재하면, 선형 SEM의 구조적 파라미터가 고유하게 식별된다고 증명한다. 증명은 선형 대수적 접근과 그래프 이론의 d‑separation 성질을 결합해, 관측 공분산 행렬 Σ가 파라미터 θ에 대한 일대일 매핑을 갖는다는 것을 보인다. 또한, 알고리즘 1을 통해 주어진 DAG에서 자동으로 적합한 Z 집합을 탐색하는 절차를 제시한다. 이 알고리즘은 깊이 우선 탐색과 최대 매칭 기법을 활용해, 복잡도는 O(|V|³) 수준으로 실용적이다.

실험 부분에서는 여러 표준 베이즈 네트워크와 인공적으로 생성한 대규모 DAG에 대해 GCI를 적용하였다. 결과는 기존 방법이 식별 불가능하다고 판단한 경우에도 GCI가 성공적으로 식별성을 확보함을 보여준다. 특히, 변수 수가 100을 초과하는 대규모 네트워크에서도 알고리즘이 빠르게 실행되었으며, 추정된 파라미터의 평균 제곱 오차가 기존 방법보다 현저히 낮았다.

논문의 의의는 두드러진다. 첫째, 식별성을 판단하는 그래프적 기준을 일반화함으로써, 연구자가 사전 지식만으로 복잡한 인과 모델을 검증할 수 있게 된다. 둘째, 제시된 알고리즘은 기존의 수작업 기반 검증 과정을 자동화하여, 실무에서 대규모 데이터와 복잡한 인과 구조를 다루는 데 유용하다. 마지막으로, GCI는 선형 SEM에 국한되지 않고, 비선형 혹은 비정규분포 오류 구조에도 확장 가능성을 시사한다는 점에서 향후 연구 방향을 제시한다.