전역 균일 사전 기반 베이지안 네트워크 점수 지표

초록

본 논문은 베이지안 네트워크 구조 학습 시 사전 파라미터를 명시하기 어려운 경우를 위해, 모든 구조와 일치하는 결합 확률분포를 균등하게 가정하는 전역 균일(Global Uniform, GU) 사전에 기반한 새로운 점수 지표를 제안한다. GU 지표는 기존 BDeu와 K2 지표가 보이는 특정 비직관적 현상을 해소하고, 특수한 BN 클래스에 대해 닫힌 형태의 계산식을 제공한다. 일반 BN에 대한 효율적 계산은 아직 미해결 문제로 남는다.

상세 분석

이 논문은 베이지안 네트워크(BN) 구조 학습에서 흔히 사용되는 BDeu와 K2 점수 지표가 기본적으로 “디폴트 파라미터 사전”을 전제로 한다는 점에 주목한다. BDeu는 디리클레 사전의 하이퍼파라미터를 동일하게 설정함으로써 변수마다 동일한 사전 정보를 부여하지만, 이는 변수의 상태 수가 다를 때 과도한 가중치를 부여하거나, 데이터가 희소할 경우 비현실적인 구조 선호를 초래한다. K2는 사전이 균등하다고 가정하지만, 실제로는 변수 간 독립성 가정이 구조에 따라 달라짐에도 불구하고 동일한 사전 확률을 적용한다는 한계가 있다.

GU(전역 균일) 사전은 “구조 S와 일치하는 모든 결합 확률분포 P가 동일한 확률을 가진다”는 전역적인 균등 가정을 도입한다. 여기서 “일치한다”는 의미는 P가 S가 정의하는 독립성 관계만을 포함하고, 추가적인 독립성은 없다는 조건이다. 즉, 구조가 허용하는 모든 가능한 상관관계를 포괄하면서도 불필요한 제약을 가하지 않는다. 이 접근법은 파라미터 공간을 구조에 따라 다르게 가중치 부여하는 기존 방법과 달리, 구조 자체가 사전 확률에 직접적인 영향을 미치게 한다.

논문은 GU 사전 하에서의 사후 확률을 계산하기 위해, 구조 S가 정의하는 조건부 확률표(CPT)의 차원을 고려한 적분을 수행한다. 특수한 경우, 예를 들어 트리 구조나 단일 부모를 갖는 변수들에 대해서는 적분이 닫힌 형태로 정리될 수 있음을 증명한다. 이때 얻어지는 점수는 데이터 로그우도와 구조 복잡도에 대한 자연스러운 균형을 제공한다.

또한, GU 지표가 BDeu와 K2가 보이는 “데이터가 충분히 없을 때 과도하게 복잡한 구조를 선호한다”는 현상을 어떻게 완화하는지 실험적으로 보여준다. 특히, 변수의 상태 수가 서로 다를 때 BDeu는 상태가 많은 변수에 대해 과도한 패널티를 부여하지만, GU는 모든 변수에 동일한 사전 가중치를 적용하므로 이러한 불균형이 사라진다.

하지만 GU 지표의 계산 복잡도는 아직 해결되지 않은 문제이다. 일반적인 다중 부모를 갖는 DAG에 대해서는 적분이 고차원 다중 적분으로 전개되며, 현재 알려진 효율적인 알고리즘이 존재하지 않는다. 저자들은 이 점을 “향후 연구 과제”로 명시하고, 근사 방법이나 샘플링 기반 접근법을 제안할 가능성을 열어둔다.

요약하면, GU 사전은 베이지안 네트워크 구조 학습에서 파라미터 사전을 명시적으로 정의하기 어려운 상황에 대한 이론적 대안을 제공한다. 구조에 내재된 독립성만을 고려한 전역 균일 사전은 기존 디폴트 사전이 야기하는 편향을 줄이며, 특히 변수 간 상태 수 차이가 큰 데이터셋에서 보다 공정한 구조 선택을 가능하게 한다. 향후 효율적인 계산 방법이 개발된다면, GU 지표는 실용적인 BN 학습 도구로 자리매김할 잠재력을 가진다.