ABC 모델 선택의 신뢰성 문제
초록
본 논문은 Approximate Bayesian Computation(ABC)을 이용한 모델 선택이 요약통계가 충분하지 않을 경우 근본적인 오류를 초래한다는 점을 이론적으로 증명한다. 특히 ABC가 추정하는 베이지안 모델 확률은 원 데이터가 아닌 요약통계에만 의존하게 되며, 이는 실제 베이지안 베이지안 팩터와 크게 달라질 수 있다. 따라서 ABC 기반 모델 선택은 추가적인 실증 검증 없이는 신뢰하기 어렵다.
상세 분석
이 논문은 ABC가 복잡한 확률 모델, 특히 인구유전학과 계통학에서 널리 사용되는 배경을 먼저 제시한다. ABC는 사후분포를 직접 샘플링할 수 없을 때, 시뮬레이션으로 생성한 가짜 데이터와 실제 데이터 사이의 거리(ρ)를 이용해 허용오차(ε) 이하인 경우만 받아들이는 ‘거부 샘플링’ 방식을 채택한다. 여기서 핵심은 요약통계 η(·)이며, 이 통계가 충분(sufficient)하지 않으면 원 데이터 y에 포함된 정보를 일부 손실한다. 논문은 이 손실이 파라미터 추정에는 크게 문제되지 않을 수 있지만, 모델 선택—즉, 서로 다른 확률 모델 f₁(y|θ₁), f₂(y|θ₂)의 사후 확률을 비교하는 상황—에서는 치명적이라고 주장한다.
수학적으로, ABC‑MC(모델 선택) 알고리즘이 수렴할 때 얻어지는 베이지안 팩터는
B₁₂^ε(y)= P(M=1,ρ≤ε) / P(M=2,ρ≤ε) 로 표현된다. ε→0이면 이는 요약통계 η(y)만을 이용한 베이지안 팩터 B₁₂^η(y)와 동일해진다. 그러나 실제 베이지안 팩터 B₁₂(y)는 전체 데이터 y의 밀도 비율이며, 일반적으로
B₁₂(y)= g₁(y)·B₁₂^η(y) / g₂(y) 로 분해된다(여기서 g_i(y)는 η와 무관한 부분). g₁(y)와 g₂(y)가 동일하지 않은 대부분의 경우, 두 팩터는 크게 차이 나며, 특히 데이터 차원이 커질수록 그 차이는 무한대로 발산할 수 있다. 이는 요약통계가 두 모델에 대해 동시에 충분하더라도 모델 인덱스 M까지 포함한 충분통계가 될 수 없다는 사실을 보여준다.
특수한 경우로 Gibbs 랜덤 필드에서는 모델 간에 동일한 g(y) 형태가 유지돼 ABC‑MC가 정확한 베이지안 팩터를 제공한다는 기존 결과를 재확인한다. 그러나 일반적인 생물학·생태학 모델에서는 이러한 특성이 거의 존재하지 않는다. 따라서 ABC‑MC가 제공하는 모델 사후 확률은 ‘알고리즘이 얼마나 많은 시뮬레이션을 수행했는가’와는 무관하게, 선택된 요약통계에 의해 결정되는 근본적인 편향을 내포한다.
결론적으로, 저자들은 ABC‑MC를 탐색적 도구로만 사용하고, 실제 모델 선택 결론을 내리기 전에 DIY‑ABC와 같은 소프트웨어가 제공하는 시뮬레이션 기반 검증, 교차 검증, 혹은 완전 데이터 기반의 ABC(가능한 경우) 등을 통해 결과를 확인할 것을 권고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기