잠재 변수와 유한 혼합 모델을 활용한 DAG 적합 및 교육 전이 분석

초록

본 논문은 범주형 내생 변수를 갖는 유향 비순환 그래프(DAG) 모델에 임의 개수의 잠재 변수를 포함시켜, 이를 유한 혼합 모델 형태로 재구성하고, 효율적인 EM 알고리즘을 통해 최대우도 추정을 수행한다. 모델은 인과 추론에 적합하도록 설계되었으며, 교육 전이 문제에 적용해 부모의 교육 수준이 자녀의 교육 성취에 미치는 직접·간접 효과를 정량화한다.

상세 요약

이 연구는 구조방정식모델(SEM)과 유한 혼합모델을 통합한 새로운 프레임워크를 제시한다. 기본 가정은 모든 내생 변수가 명목형(또는 순서형)이며, 외생 변수는 연속형이든 범주형이든 제한이 없다는 점이다. DAG의 각 노드는 조건부 확률표(CPT)를 통해 다른 노드와의 의존관계를 기술하고, 잠재 변수는 관측되지 않은 이산 상태를 갖는 추가 노드로 삽입된다. 이러한 설계는 잠재 요인이 관측 변수와 복합적으로 작용하는 경우에도 모델이 충분히 유연하도록 만든다.

EM 알고리즘은 두 단계로 구성된다. E‑step에서는 현재 파라미터 추정값을 이용해 잠재 변수와 관측 변수의 결합분포에 대한 기대값, 즉 각 잠재 상태에 대한 posterior 확률을 계산한다. 이때, 그래프 구조가 비순환이므로 베이즈 네트워크의 전방/후방 메시징을 활용해 효율적인 확률 전파가 가능하다. M‑step에서는 기대된 충분통계량을 기반으로 각 CPT와 혼합 비율을 업데이트한다. 특히, 파라미터 공간이 고차원일 경우에도 각 노드별 업데이트가 독립적으로 수행되므로 계산 복잡도가 선형에 가깝게 유지된다.

식별성 문제에 대해서는 두 가지 조건을 제시한다. 첫째, 각 잠재 변수는 최소 두 개 이상의 관측 변수에 직접 연결돼야 하며, 이들 관측 변수는 서로 조건부 독립이어야 한다. 둘째, 잠재 변수의 상태 수는 관측 변수의 카테고리 수보다 과도하게 크지 않아야 한다(오버파라미터 방지). 이러한 조건 하에 모델은 전역 최적점에 수렴한다는 이론적 보장을 얻는다.

교육 전이 사례에서는 부모의 교육 수준, 가구 소득, 지역 특성 등을 외생 변수로, 자녀의 교육 성취와 직업 상태 등을 내생 변수로 설정했다. 잠재 변수는 ‘가족 문화’ 혹은 ‘학습 동기’와 같이 직접 측정하기 어려운 요인으로 모델링되었다. EM 추정 결과, 부모 교육이 자녀 교육에 미치는 직접 효과는 기대보다 작았으며, 대부분의 효과가 잠재 문화 요인을 매개한다는 점이 밝혀졌다. 이는 정책 설계 시 가시적 교육 지원뿐 아니라 비가시적 문화적 요인에도 주의를 기울여야 함을 시사한다.

전반적으로 이 논문은 복잡한 인과 구조를 가진 데이터에 대해 잠재 변수를 자연스럽게 포함시키면서도, 기존 혼합 모델보다 해석 가능하고 계산 효율적인 방법을 제공한다는 점에서 큰 의의를 가진다.

초록

상세 요약

📜 논문 원문 (영문)