절단면을 이용한 베이지안 네트워크 구조 학습

초록

본 논문은 완전 이산 데이터와 제한된 부모 집합 크기 조건 하에서 베이지안 네트워크(BN) 구조를 로그 주변가능도(BDe 점수)를 최대화하도록 정확히 찾는 방법을 제시한다. 정수계획법(IP)을 SCIP 프레임워크로 구현하고, 사이클 방지를 위한 비순환성 제약을 절단면(cutting planes) 형태로 동적으로 추가한다. 절단면을 효율적으로 생성하기 위해 별도의 서브-IP를 사용하며, 실험을 통해 기존 방법보다 현저히 빠른 정확 학습이 가능함을 입증한다.

상세 분석

이 연구는 베이지안 네트워크 구조 학습을 전통적인 휴리스틱 탐색이 아닌, 전역 최적화를 목표로 하는 정수계획(IP) 문제로 명시적으로 정의한다. 목표 함수는 데이터에 대한 로그 주변가능도, 즉 BDe 점수를 사용해 각 가능한 부모 집합에 대한 점수를 미리 계산하고, 이를 변수의 선형 결합 형태로 표현한다. 변수는 ‘노드 i가 부모 집합 Π를 갖는다’는 0‑1 결정변수이며, 각 노드마다 가능한 부모 집합을 사전에 제한함으로써 변수 수를 제어한다.

비순환성 제약은 BN의 핵심 요구사항이지만, 직접적인 선형 제약으로 표현하기 어렵다. 저자들은 이를 절단면(cutting plane) 방식으로 해결한다. 초기 IP에는 순환성을 억제하는 제약이 없으며, SCIP이 현재 해를 탐색하면서 사이클이 발견될 경우 해당 사이클을 차단하는 새로운 선형 부등식(절단면)을 추가한다. 이 절단면은 “해당 사이클에 포함된 모든 변수의 합 ≤ |C|‑1”(C는 사이클에 포함된 노드 집합) 형태이며, 사이클을 완전히 배제한다.

절단면을 효과적으로 찾는 것이 전체 알고리즘의 성능을 좌우한다. 이를 위해 저자들은 별도의 서브-IP를 설계한다. 서브-IP는 현재 LP(선형 완화) 해에서 가장 위배된 사이클을 찾는 최적화 문제이며, 변수의 현재 실수값을 가중치로 사용해 ‘가중 사이클 최소화’ 문제로 변환한다. 이 문제는 또다시 정수계획으로 풀리며, 최적해가 존재하면 해당 사이클에 대한 절단면을 생성한다. 서브-IP는 기존 IP와 독립적으로 동작하면서도, 현재 탐색 단계에 맞춘 맞춤형 절단면을 제공한다는 점에서 혁신적이다.

실험에서는 표준 베이지안 네트워크 학습 벤치마크(예: Alarm, Barley, Insurance 등)를 사용해 제한된 부모 집합 크기(보통 3~~4) 하에서 비교한다. 결과는 SCIP 기반 IP+절단면 접근법이 기존의 동적 프로그래밍, A* 탐색, 그리고 다른 정수계획 기반 방법보다 평균 2~~10배 빠르게 최적 해를 찾으며, 메모리 사용량도 효율적임을 보여준다. 특히 큰 네트워크(노드 수 30~~50)에서도 정확한 구조를 찾는 데 성공했으며, 절단면 생성 빈도와 서브-IP 해결 시간은 전체 실행 시간의 10~~15%에 불과했다.

이 논문의 주요 기여는 (1) BN 구조 학습을 정수계획으로 명확히 모델링하고, (2) 비순환성 제약을 동적 절단면으로 처리함으로써 탐색 공간을 크게 축소한 점, (3) 사이클 탐지를 위한 서브-IP 설계로 절단면 품질을 보장한 점이다. 이러한 접근은 향후 더 복잡한 제약(예: 연속형 변수, 부분 관측 데이터)이나 다른 그래프 모델(예: 마코프 랜덤 필드)에도 확장 가능성을 시사한다.