PFN 의 불확실성 정량화를 위한 마팅게일 사후분포
초록
본 논문은 사전‑데이터 적합 네트워크(PFN)의 예측값에 대해 베이지안 불확실성 정량화를 제공하기 위해 마팅게일 사후분포(MP) 프레임워크를 확장한다. 조건부 추론을 위한 새로운 샘플링 절차와 가우시안 코플라 기반 비모수 업데이트 방식을 제안하고, 학습률 스케줄을 유연하게 설계한다. 수렴 및 수렴 속도에 대한 이론적 보장을 증명했으며, 시뮬레이션 및 실제 데이터 실험을 통해 90 % 신뢰구간의 커버리지가 크게 개선됨을 확인하였다.
상세 분석
PFN은 트랜스포머 기반의 사전학습 모델로, 합성 데이터로부터 조건부 사후 예측밀도(PPD)를 근사한다. 기존 PFN은 PPD 자체는 제공하지만, 평균·분위수·조건부 확률과 같은 요약 통계량에 대한 불확실성은 제공하지 못한다는 한계가 있다. 저자들은 이 문제를 해결하기 위해 마팅게일 사후분포(MP)의 아이디어를 차용한다. MP는 베이즈 사후분포를 역방향으로 재구성하는 방법으로, PPD만을 이용해 사후분포를 샘플링한다. 핵심은 관측 데이터 이후에 반복적으로 새로운 레이블을 조건부 분포 p(y | 데이터)에서 추출하고, 이 샘플들의 경험분포가 무한히 수렴하면 그 한계분포가 사후분포가 된다는 점이다.
하지만 트랜스포머 기반 PFN은 O(n²) 복잡도로 인해 직접적인 MP 샘플링이 실용적이지 않으며, 실제 모델이 마팅게일 성질을 만족하지 않아 샘플링이 편향될 위험이 있다. 이를 해결하기 위해 저자들은 두 단계 접근법을 제안한다. 첫 단계에서는 PFN이 제공하는 초기 PPD를 “정보가 풍부한 사전”으로 사용하고, 이후 가우시안 코플라를 이용한 비모수 업데이트를 수행한다. 코플라 업데이트는 기존 MP 논문에서 제시된 Dirichlet Process Mixture Model(DPMM) 기반 방법을 변형한 것으로, 각 단계에서 현재 CDF와 이전 단계 CDF 사이에 일정 비율(학습률 α)로 혼합한다. 이때 혼합 비율은 αₙ₊ₖ = C·(n + k + 1)^{‑β} 형태로 파라미터 C와 β를 조정해 PFN의 수렴 속도와 차원 의존성을 반영한다.
이론적으로는 (1) 샘플 경로가 교환가능한 분포로 수렴한다는 De Finetti 정리 기반 결과, (2) 초기 PPD가 절대 연속이면 무한 단계 후의 한계 CDF P_{∞,x}가 거의 확실히 존재한다는 정리, (3) 시간 균일 Azuma‑Hoeffding 부등식을 이용해 |P_{∞,x}(y) − P_N(y)| ≤ O( (n+N)^{‑β+½}·log(1/δ) ) 로 수렴 속도를 명시적으로 제시한다. 또한 초기화 차이가 최종 사후분포에 미치는 영향을 분석해, 초기 PPD 선택이 최종 불확실성 추정에 지배적임을 보였다.
실험에서는 합성 데이터에서 비선형 함수의 중위값과 90 % 신뢰구간을 추정했을 때, 기존 MP 변형(예: Fong et al.)과 PFN 단독 사용보다 커버리지 오차가 현저히 작았다. 실제 표형 데이터셋에서도 베이지안 가법 모델과 비교해 비슷하거나 더 좋은 예측 정확도와 함께 신뢰구간이 적절히 캘리브레이션되는 것을 확인했다. Ablation study에서는 학습률 스케줄 종류(C,β)와 코플라 밴드위스 ρ가 결과에 미치는 영향을 정량화했으며, PFN 자체가 마팅게일 성질을 위배하더라도 제안된 업데이트가 이를 보정한다는 점을 실증했다.
결과적으로 이 논문은 PFN이라는 강력한 사전학습 기반 예측 모델에 베이지안 불확실성 정량화를 정식으로 부여할 수 있는 실용적인 프레임워크를 제공한다. 향후 대규모 언어 모델이나 다른 형태의 foundation model에도 동일한 접근법을 확장할 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기