희소 가법 모델을 이용한 순서 기반 인과 구조 학습의 효율적 프루닝

1. 서론 인과 구조 학습은 관측 데이터만으로 변수 간 인과 관계를 DAG 형태로 복원하는 문제이며, 생물학·경제학 등 다양한 분야에서 핵심적인 역할을 한다. 기존 접근법은 크게 두 가지로 나뉜다. (i) 점진적 탐색 방식은 acyclicity 제약을 직접 다루어 계산량이 급증하고, (ii) 순서 기반(order‑based) 접근법은 먼저 위상 순서(토포로지컬 오더)를 추정한 뒤, 해당 순서에 의해 완전 연결된 DAG에서 불필요한 엣지를 제거한다. 후자는 순서 추정만으로 탐색 공간을 크게 축소할 수 있어 최근 많은 연구가 집중하고 있다. 하지만 순서 기반 방법에서도 프루닝 단계는 실질적인 성능과 효율성을 좌우한다. 기존의 대표적 프루닝 기법인 CAM‑pruning은 각 변수 i에 대해 후보 부모 \hat{pa}(i)와의 일반화 가법 모델(GAM)을 적합하고, 각 형태 함수 g_{i,j}(·)가 0인지 여부를 가설 검정으로 판단한다. 이 과정은 (1) 모든 변수에 대해 비선형 회귀를 반복 수행해야 하므로 연산 비용이 크게 늘어나고, (2) 다중 검정으로 인한 제1종 오류 누적으로 인해 실제 인과 관계를 놓칠 위험이 있다. 2. 연구 목표 및 기여 본 논문은 위 두 문제를 동시에 해결하고자 한다. 핵심 아이디어는 “희소 가법 모델(Sparse Additive Model, SAM)”을 직접 학습하여 가설 검정 없이 불필요한 부모 변수를 제거하는 것이다. 이를 위해 저자들은 다음과 같은 세 가지 기여를 제시한다. - **SARTRE 프레임워크**: Randomized Tree Embedding과 Group‑wise Sparse Regression을 결합한 새로운 학습 파이프라인을 설계하였다. - **프루닝 알고리즘**: 위상 순서가 주어졌을 때, SARTRE를 이용해 각 변수의 희소 가법 모델을 학습하고, β_{i,j}=0인 경우 해당 엣지를 즉시 삭제한다. - **실험 검증**: 합성·실제 데이터에서 기존 CAM‑pruning 대비 5~12배 빠른 실행 시간과 동등하거나 더 높은 구조 회수 정확도를 입증하였다. 3. 사전 지식 및 문제 정의 인과 구조 학습은 비선형 Additive Noise Model(ANM) 하에서 X_i = f_i(X_{pa(i)}) + ε_i (ε_i ∼ N(0,σ_i^2)) 로 정의된다. 위상 순서 \hat{π}가 주어지면, 후보 부모 집합 \hat{pa}(i) = {j | \hat{π}(j) < \hat{π}(i)} 로 구성된다. 프루닝은 \hat{pa}(i) 중 실제 부모 pa(i)를 찾아내는 변수 선택 문제와 동일하다. 4. 제안 방법: SARTRE 4.1. 형태 함수의 이산화 각 형태 함수 g_{i,j}(x_j)를 구간 기반 이진 인디케이터 ϕ_{j,k}(x_j)=I

희소 가법 모델을 이용한 순서 기반 인과 구조 학습의 효율적 프루닝

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기