불완전 데이터에서 베이지안 네트워크 파라미터 학습을 향상시키는 두 가지 전략

불완전 데이터에서 베이지안 네트워크 파라미터 학습을 향상시키는 두 가지 전략
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 결측치가 존재하는 데이터로부터 베이지안 네트워크(BN)의 파라미터를 추정할 때, 전통적인 EM 기반 최대우도·MAP 선택이 과적합과 모델 불확실성에 취약함을 지적한다. 이를 해결하기 위해 (1) 고점수 추정 집합 중 엔트로피를 최대화하는 최대엔트로피 방법과, (2) 각 조건부 확률표에 대해 베이지안 모델 평균(BMA)을 적용하는 방법을 제안한다. 두 기법은 EM 위에 쉽게 겹쳐 사용할 수 있으며, 실험 결과 두 방법 모두 기존 최대점수 방식보다 파라미터 정확도와 추론 품질이 현저히 개선됨을 보여준다.

상세 분석

베이지안 네트워크의 파라미터 학습은 구조가 고정된 상황에서 결측 데이터가 MAR(Missing At Random) 가정하에 존재하면 로그우도 함수가 비볼록·다중극점을 갖게 된다. 전통적으로 EM 알고리즘을 여러 초기값에서 실행하고, 가장 높은 점수를 얻은 파라미터 집합을 선택한다. 그러나 논문은 이 “최대 점수 선택”이 두 가지 근본적인 문제를 야기한다는 점을 강조한다. 첫째, 높은 점수는 종종 데이터에 과도하게 맞춰진 결과이며, 특히 샘플 수가 제한적일 때 MAP 혹은 페널티가 적용된 로그우도라도 과적합을 일으킬 수 있다. 둘째, 서로 다른 초기값에서 수렴한 여러 로컬 최적점들은 점수 차이가 미미함에도 불구하고 파라미터가 크게 달라 모델 불확실성을 무시하게 만든다.

이를 보완하기 위해 저자는 두 가지 대안을 제시한다. (1) 최대 엔트로피 접근: 점수가 전체 최댓값의 일정 비율(c·s*) 이상인 후보 집합을 정의하고, 그 중 엔트로피가 가장 큰 파라미터를 선택한다. 엔트로피를 최대화함으로써 “가장 보수적인” 분포를 얻어 과적합을 억제한다. 구현 측면에서는 간단히 EM 여러 번 실행 후 점수가 높은 후보들을 추려 엔트로피를 계산해 선택하거나, 비선형 최적화 솔버를 이용해 점수 제약을 직접 포함한 연속 최적화 문제로 풀 수 있다. (2) 베이지안 모델 평균(BMA) 접근: 각 EM 실행이 제공하는 조건부 확률표를 독립적으로 평균한다. 구체적으로, 각 변수 X_j와 그 부모 조합 π_j에 대해 EM마다 얻은 p(x_j|π_j)를 점수(또는 사후 확률) 비례 가중치로 평균하고, 이를 새로운 단일 BN의 CPT에 할당한다. 이렇게 하면 모델 집합 전체의 예측을 통합하면서도 구조는 그대로 유지한다.

실험 설계는 Asia, Alarm, 그리고 무작위 생성 네트워크를 대상으로 샘플 크기 100·200, 결측 비율 30%·60% 상황을 300번 반복하였다. 각 실험에서 30번의 EM 실행을 수행하고, MAP(최대 점수), 엔트로피, BMA 세 방법으로 파라미터를 추정했다. 평가 지표는 (i) 전체 결합 분포와 참 분포 사이의 KL 발산, (ii) 모든 leaf 노드의 주변 결합 분포에 대한 KL 발산(“leaf metric”)이었다. 비모수적 Friedman 검정과 Tukey HSD 사후 검정을 통해 통계적 유의성을 검증하였다. 결과는 두 새로운 방법이 모두 MAP보다 낮은 KL을 기록했으며, 특히 BMA가 대부분의 설정에서 최우수 성능을 보였다. 엔트로피 방법도 비선형 최적화 구현 시 BMA와 동등한 수준에 도달했다.

이러한 결과는 (1) 점수만을 기준으로 모델을 선택하는 전통적 관행이 실제 예측 정확도를 보장하지 못한다는 점, (2) 고점수 후보 집합 내에서 보수적인 엔트로피 최적화를 수행하면 과적합을 효과적으로 억제한다는 점, (3) BMA를 조건부 확률 수준에서 적용하면 모델 집합 전체의 불확실성을 자연스럽게 반영하면서도 단일 BN 형태를 유지할 수 있다는 점을 시사한다. 또한 제안된 방법들은 기존 EM 구현 위에 최소한의 코드만 추가하면 되므로 현재 상용 BN 툴킷에 바로 적용 가능하다는 실용적 장점도 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기