베이지안 네트워크 최적 탐색: 구성 속성을 통한 포함 최적 모델 보장
초록
본 논문은 단일 에지 수정과 일관된 점수 기준을 사용하는 탐욕적 베이지안 네트워크 검색 알고리즘이, 관측 변수에 대한 생성 분포가 “구성 속성”을 만족하면 포함‑최적 모델을 찾아낸다는 이론적 결과를 제시한다. 이는 기존 연구가 요구하던 완전성 가정을 완화하고, 숨은 변수와 선택 편향이 존재하는 현실적인 상황까지 확장한다.
상세 분석
이 연구는 베이지안 네트워크 구조 학습에서 가장 널리 쓰이는 탐욕적 탐색 방법, 즉 매 단계마다 하나의 에지를 추가·삭제·반전하는 단일‑에지 변형을 적용하고, 데이터 양이 무한대로 커질 때 점수 함수가 일관성을 갖는다는 전제 하에 진행한다. 기존 Meek(1997)와 Chickering(2002)의 결과는 생성 분포가 관측 변수들에 대해 완전(perfect)한 DAG, 즉 모든 독립·조건부 독립 관계가 그래프에 정확히 반영될 때, 탐색 알고리즘이 결국 그 DAG를 복구한다는 것을 보였다. 그러나 실제 도메인에서는 숨은 변수, 측정 오류, 선택 편향 등으로 인해 완전성을 기대하기 어렵다.
논문은 이러한 한계를 극복하기 위해 “구성 속성(composition property)”이라는 보다 약한 가정을 도입한다. 구성 속성은 두 독립 관계가 각각 성립하면, 그 두 관계를 합친 복합적인 독립 관계도 성립한다는 논리적 규칙이다. 구체적으로, 관측 변수 집합 X에 대해 X⊥Y∪Z|W가 X⊥Y|W와 X⊥Z|W가 동시에 성립할 때 보장된다는 의미다. 이 속성은 많은 실제 확률 모델, 특히 DAG, 체인 그래프, 마코프 네트워크와 같은 그래픽 모델에서 자연스럽게 만족된다. 특히 숨은 변수가 존재하거나 데이터가 선택 편향을 겪는 경우에도, 독립 관계가 단일 변수 간 경로로 표현될 수 있다면 구성 속성은 유지된다.
이 가정 하에서 저자들은 탐색 알고리즘이 “포함‑최적(inclusion‑optimal)” 모델을 찾는 것을 증명한다. 포함‑최적 모델은 (1) 생성 분포를 포함하고, (2) 그보다 더 작은(즉, 에지가 더 적은) 서브 모델이 생성 분포를 포함하지 않는 모델이다. 즉, 가능한 가장 간결하면서도 생성 분포를 완전히 설명하는 구조를 의미한다. 이는 완전성 가정이 요구하는 정확히 동일한 DAG를 찾는 것보다 약하지만, 실용적인 관점에서 충분히 강력한 보장이다.
또한 논문은 구성 속성이 “경로 기반” 의존성 구조—예를 들어, 어떤 두 변수 사이의 의존성이 그들 사이에 존재하는 단일 변수들의 연쇄 경로에 의해 설명될 때—에서 자동으로 성립함을 보인다. 따라서 숨은 변수나 선택 편향이 존재하더라도, 관측 변수들 사이의 의존성이 그래프상의 경로로 표현될 수 있다면, 탐색 알고리즘은 여전히 포함‑최적 모델을 회복한다. 이는 기존 연구가 요구하던 “완전성”보다 훨씬 넓은 적용 범위를 제공한다는 점에서 의미가 크다.
기술적으로는 점수 함수가 BIC, BDeu 등과 같이 데이터가 무한히 커질 때 실제 모델을 최대로 선호하도록 설계된 경우에만 이론이 성립한다. 점수의 일관성은 “점수가 실제 생성 모델에 대해 최적값을 갖는다”는 조건을 의미하며, 이는 대규모 데이터셋에서 탐색이 과적합을 피하고 올바른 구조를 선택하도록 만든다. 저자들은 또한 탐색 공간을 제한하지 않고, 모든 가능한 단일‑에지 변형을 고려함으로써 로컬 최적에 머무르지 않도록 보장한다.
결과적으로, 이 논문은 베이지안 네트워크 구조 학습에서 현실적인 가정을 도입하면서도, 탐욕적 탐색이 이론적으로 강력한 최적성을 유지할 수 있음을 증명한다. 이는 실무에서 숨은 변수와 선택 편향을 무시할 수 없는 복잡한 데이터 분석에 직접적인 영향을 미친다.