효율적인 마코프 네트워크 구조 학습을 위한 독립성 검정 기반 알고리즘

초록

본 논문은 데이터로부터 마코프 네트워크 구조를 학습하기 위해 두 개의 독립성 검정 기반 알고리즘인 GSMN와 GSIMN을 제안한다. GSMN는 기존 Grow‑Shrink 알고리즘을 마코프 네트워크에 맞게 변형한 것이며, GSIMN은 Pearl의 조건부 독립성 공리들을 활용해 추가적인 독립성을 추론함으로써 실제 통계 검정 횟수를 크게 줄인다. 실험 결과 GSIMN이 GSMN*보다 검정 비용이 적으면서도 동일하거나 더 높은 구조 품질을 제공함을 확인하였다.

상세 분석

이 논문은 마코프 네트워크(Markov Network, MN)의 구조 학습을 ‘독립성 기반(Independence‑Based, IB)’ 접근법으로 재정의함으로써 기존의 최대우도(Maximum Likelihood, ML) 기반 방법이 안고 있던 NP‑hard 문제를 회피한다. ML 기반 방법은 파라미터 추정이 필요하고, 이는 그래프의 사이클 구조 때문에 계산량이 급증한다. 반면 IB 방식은 변수들 사이의 조건부 독립성 관계만을 검정하면 되므로, 복잡도 측면에서 훨씬 효율적이다.

GSMN*는 먼저 각 변수에 대해 ‘성장(Grow)’ 단계에서 주변 변수들을 점진적으로 추가한다. 이때 변수 X와 Y가 현재 마크된 집합 S에 대해 조건부 독립성 검정 I(X;Y|S)을 수행하고, 독립이 아니면 Y를 X의 마코프 블랭킷에 포함한다. 이후 ‘축소(Shrink)’ 단계에서 이미 포함된 변수들 중 불필요한 변수를 제거한다. 이 과정은 기존 Bayesian Network용 Grow‑Shrink 알고리즘을 마코프 네트워크의 무방향성에 맞게 변형한 것으로, 각 변수마다 별도의 마코프 블랭킷을 구성한다는 점이 핵심이다.

GSIMN은 GSMN*에 ‘삼각 정리(Triangle Theorem)’라는 새로운 추론 규칙을 도입한다. Pearl의 여섯 가지 공리(대칭성, 감소성, 연쇄성, 합성성, 교환성, 무조건성) 중에서 특히 연쇄성(Transitivity)과 합성성(Composition)을 결합해, 두 개의 알려진 독립성 I(A;B|C)와 I(B;D|C)로부터 I(A;D|C) 혹은 I(A;D|C∪{B})와 같은 새로운 독립성을 직접 유도한다. 이렇게 하면 실제 통계 검정을 수행하지 않아도 되는 독립성 관계가 급격히 늘어나, 전체 검정 횟수가 크게 감소한다.

알고리즘 구현 측면에서 GSIMN은 ‘전방 체이닝(Forward‑Chaining)’ 방식인 GSIMN‑FCH와 비교된다. GSIMN‑FCH는 모든 가능한 공리 적용을 반복적으로 수행해 가능한 모든 독립성을 생성하지만, 연산량이 급격히 증가한다. 반면 GSIMN은 삼각 정리만을 사용해 거의 최적에 가까운 독립성 추론을 달성한다. 실험에서는 인공 데이터와 실제 데이터(예: UCI 레포지토리)에서 GSIMN이 GSMN* 대비 평균 30%~50% 정도의 검정 횟수 절감을 보였으며, 구조 정확도(Precision, Recall)에서는 차이가 없거나 미세하게 향상된 결과를 얻었다.

이 논문의 주요 기여는 (1) 마코프 네트워크 구조 학습에 독립성 검정 기반 프레임워크를 성공적으로 적용한 점, (2) Pearl의 공리를 실용적인 형태인 삼각 정리로 축약해 효율적인 추론 메커니즘을 제공한 점, (3) 실험을 통해 기존 ML 기반 방법 대비 계산 효율성과 정확도 모두에서 경쟁력을 입증한 점이다. 특히, 복잡한 파라미터 추정 없이도 고품질의 그래프를 얻을 수 있다는 점은 대규모 데이터와 고차원 변수 공간에서 실용적인 가치가 크다. 향후 연구에서는 삼각 정리 외에 추가적인 공리 조합을 탐색하거나, 비정규화된(Non‑Gaussian) 연속형 데이터에 대한 독립성 검정 방법을 통합함으로써 적용 범위를 넓히는 것이 기대된다.