베이즈 정리와 최적 정보 삭제: 학습·언러닝의 대칭성
초록
본 논문은 1988년 셀러너가 제시한 “베이즈 정리는 최적 정보 처리 규칙”이라는 결과를 출발점으로, 데이터 일부를 제거할 때 포스터리어를 어떻게 변환해야 정보 손실이 최소가 되는지를 탐구한다. 정보 삭제 규칙을 정보량(샤논 엔트로피) 기반의 손실 함수로 정의하고 변분법으로 최적화를 수행한 결과, 최적 정보 삭제 규칙이 기존 베이즈 정리와 동일함을 증명한다. 이를 통해 베이즈 정리가 학습뿐 아니라 언러닝(데이터 삭제)에서도 최적임을 확인하고, 변분 베이즈 언러닝 및 데이터 삭제에 대한 실용적 접근법을 제시한다.
상세 분석
이 논문은 셀러너(1988)의 변분적 베이즈 정리 해석을 그대로 차용하면서, “정보 삭제”라는 새로운 관점을 도입한다. 저자는 먼저 베이즈 정리를 “입력 정보(사전 + 우도) → 출력 정보(포스터리어)”라는 정보 처리 규칙(IPR)으로 정의하고, 샤논 엔트로피를 이용해 정보 손실 Δ = H(output) − H(input) 형태의 목적함수를 만든다. 여기서 “최적 IPR”는 Δ를 최소화하는 분포이며, 셀러너는 이를 변분 미분법으로 풀어 베이즈 정리와 동일한 포스터리어를 얻는다.
논문의 핵심은 이 구조를 “정보 삭제 규칙(IDR)”에 그대로 적용한다는 점이다. 데이터 집합 D 를 두 부분 D₁ (보존)와 D₂ (삭제)로 나누고, 전체 데이터에 대한 포스터리어 p(θ|D)와 우도 p(D₂|θ) 를 입력으로 삼는다. 삭제 후 목표는 “남은 데이터에 대한 포스터리어” p(θ|D₁) 를 얻는 것이며, 이를 위해 동일한 엔트로피 기반 손실 함수를 정의한다. 변분 라그랑주 최적화 과정을 거치면, 최적 IDR는
p̂(θ|D₁) ∝ p(θ|D) · p(D₂|θ)
이라는 형태가 된다. 이는 베이즈 정리의 역방향 적용과 동일하며, 즉 베이즈 정리가 정보 추가와 삭제 모두에 대해 최적임을 수학적으로 증명한다.
또한 논문은 이 결과를 변분 베이즈 언러닝(VB‑Unlearning)과 연결한다. 전체 분포 공간 대신 제한된 파라미터 집합 𝒬 위에서 최적화를 수행하면, 기존 변분 베이즈 추정과 동일한 형태의 손실 KL(q‖p̂) + E_q
댓글 및 학술 토론
Loading comments...
의견 남기기