마코프 네트워크 뒤의 정점 트리를 찾는 탐욕 알고리즘
초록
본 논문은 k‑차 t‑체리 정점 트리를 이용해 마코프 네트워크의 결합 확률분포를 근사하는 탐욕 알고리즘을 제안한다. 입력으로 k‑차 주변분포만을 사용하며, 특정 그래프 구조 조건을 만족할 경우 제안 알고리즘이 최적 혹은 최적에 근접한 t‑체리 트리를 찾아낸다. 또한 기존의 Malvestuto(1991) 알고리즘과 비교해 이론적·실험적 우수성을 보인다.
상세 분석
이 논문은 다변량 이산 확률분포를 근사하기 위해 “k‑차 t‑체리 정점 트리(k‑th order t‑cherry junction tree)”라는 특수한 k‑폭 정점 트리 구조를 도입한다. 기존 연구에서 k‑폭 정점 트리 찾기가 k>2 일 때 NP‑complete임을 밝히고, 최적 근사 트리는 언제든지 k‑차 t‑체리 트리 안에 포함될 수 있음을 증명하였다.
제안된 탐욕 알고리즘은 다음과 같은 핵심 아이디어에 기반한다.
- 검색 공간 정의: 모든 가능한 k‑차 하이퍼체리( {i₁,…,iₖ₋₁,iₖ} )를 원소로 하는 집합 E를 구성한다. 각 원소는 k‑차 주변분포에서 직접 계산 가능한 정보량 차이 I(X_{i₁,…,iₖ})−I(X_{i₁,…,iₖ₋₁}) 로 가중치를 부여한다.
- 독립성 집합 F: 현재 선택된 하이퍼체리들의 집합이 t‑체리 정점 트리의 구조적 제약(즉, 사이클이 없고, 각 클러스터가 k개의 변수, 각 분리자가 k‑1개의 변수를 포함) 을 만족하는 경우에만 새로운 원소를 추가한다. 이는 “acyclic hypergraph”와 “perfect elimination ordering” 개념을 활용한다.
- 가중치 최적화: KL‑발산을 최소화하는 등가식인
Σ_{C∈C} I(X_C) − Σ_{S∈S}(ν_S−1)I(X_S)
를 최대화하도록 원소를 내림차순으로 선택한다. 여기서 I(·)는 정보량(엔트로피 차)이며, ν_S는 해당 분리자를 포함하는 클러스터 수이다.
알고리즘 흐름은 E를 가중치 기준으로 정렬한 뒤, 가장 큰 가중치를 가진 원소를 선택하고, 선택된 집합이 F에 속하면 유지한다. 이 과정을 전체 변수 집합이 커버될 때까지 반복한다.
이와 대비해 Malvestuto(1991)의 탐욕 알고리즘은 동일한 검색 공간을 사용하지만, 가중치를 엔트로피 차이 H(X_{i₁,…,iₖ})−H(X_{i₁,…,iₖ₋₁}) 로 정의한다. 즉, 정보량이 아닌 엔트로피 감소량을 최소화하는 방향으로 진행한다. 두 알고리즘의 차이는 KL‑발산을 직접 최소화하느냐, 엔트로피 감소를 최소화하느냐에 있다.
이론적 결과로는 다음을 증명한다.
- 정리 1: 마코프 네트워크가 “perfect elimination ordering”을 갖고, 모든 (k‑1)‑차 마진이 양수이며, 조건부 독립성이 그래프의 전역 마코프 속성에 의해 완전히 기술될 때, 제안 탐욕 알고리즘이 실제 결합분포와 일치하는 t‑체리 트리를 복원한다.
- 정리 2: 위 조건이 약간만 위배되더라도, 알고리즘이 찾는 트리는 KL‑발산 관점에서 최적에 가장 가까운 근사값을 제공한다.
실험에서는 lizard 서식지 데이터(5 변수, 2×2×2×2×2 범주)를 사용해 두 알고리즘을 비교하였다. 제안 알고리즘은 KL‑발산이 0.12로 Malvestuto보다 약 15% 낮은 결과를 보였으며, 클러스터 선택 과정에서도 더 적은 반복 횟수로 수렴하였다.
전체적으로 이 논문은 고차원 마코프 네트워크의 구조 추정 문제를 정보이론적 최적화와 그래프 이론적 제약을 결합한 탐욕적 접근으로 해결한다는 점에서 의미가 크다. 특히 k‑차 주변분포만을 요구한다는 실용적 가정은 실제 데이터 수집 비용을 크게 낮출 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기