숨은 상태와 이진 특성을 가진 나이브 베이즈 네트워크의 점근적 모델 선택

초록

본 논문은 두 개의 숨은 클래스와 이진 특성들로 구성된 나이브 베이즈 네트워크 모델의 주변우도(marginal likelihood)를 점근적으로 계산하는 폐쇄형 공식을 제시한다. 기존 BIC(Bayesian Information Criterion) 점수와는 달리, 이 모델은 계층화된 지수족(stratified exponential family)에 속하므로 BIC가 일반적으로 적용되지 않음을 보인다. 저자는 대수기하학적 방법을 이용해 특이점(singularity) 주변의 적분을 정확히 다루어 새로운 점근식(Asymptotic Approximation)을 도출하고, 이를 통해 모델 선택 시 BIC가 과대/과소 평가될 위험을 경고한다.

상세 분석

이 연구는 나이브 베이즈 구조가 숨은 변수(H)를 두고 관측 변수(X₁,…,Xₙ)가 조건부 독립성을 만족하는 경우, 특히 H가 두 개의 상태를 갖고 각 Xᵢ가 이진값을 취할 때의 통계적 특성을 면밀히 분석한다. 전통적인 BIC는 로그-우도와 파라미터 차원에 기반한 −(d/2)log N 항을 사용해 주변우도를 근사하지만, 이는 모델이 매끄러운 매니폴드 위에 정의된 선형·곡선 지수족일 때만 정당성을 가진다. 나이브 베이즈 모델은 숨은 변수로 인해 파라미터 공간이 여러 차원에서 겹치는 ‘특이점’(singularities)을 형성한다. 이러한 특이점에서는 라플라스 근사가 실패하고, 로그-우도 주변의 2차 미분 행렬(피셔 정보 행렬)이 퇴화한다.

저자는 와타나베(Watanabe)의 대수기하학적 방법, 즉 실제 로그-우도 적분을 다항식 형태로 전개하고 특이점의 복잡도(learning coefficient)를 계산하는 기법을 차용한다. 구체적으로, 파라미터 θ를 (π, α₁,…,αₙ) 형태로 분해하고, 숨은 상태의 사전 확률 π와 각 특성의 조건부 확률 αᵢ를 독립적으로 다루면서, 로그-우도 함수 L(θ)≈−N·KL(p‖q_θ)+O(1) 형태임을 이용한다. 특이점에서는 KL 발산이 0이 되므로, L(θ)의 2차 항이 아닌 고차 항이 지배적이며, 이에 따라 주변우도의 점근식은 기존 BIC의 −(d/2)log N 대신 −λ·log N−(m−1)·log log N 형태가 된다. 여기서 λ는 학습 계수(learning coefficient)이며, m은 특이점의 복잡도 차원이다.

논문은 두 가지 경우를 구분한다. 첫째, 숨은 상태가 실제 데이터 생성 과정과 일치하는 경우(정규 모델)에는 λ=½·(k−1) (k는 관측 변수 수)와 같이 기존 BIC와 유사한 형태가 나오지만, 로그 log N 항이 추가된다. 둘째, 숨은 상태가 과도하게 모델링된 경우(과잉 파라미터)에는 λ가 더 작아져 주변우도가 크게 벌점(penalty)받는다. 따라서 BIC는 이러한 상황을 과소평가하게 된다.

이러한 결과는 모델 선택 기준이 단순히 파라미터 수에 비례하는 벌점만으로는 충분하지 않으며, 특이점 구조를 반영한 복합적인 벌점이 필요함을 시사한다. 또한, 실험적으로 제시된 시뮬레이션은 제안된 점근식이 실제 마진우도와 매우 근접함을 보여, BIC가 오류를 범하는 경우를 정량적으로 확인한다.