TabPFN 불확실성 분해를 위한 예측 중심극한정리
초록
TabPFN은 단일 전방 패스로 베이지안 예측을 구현하지만, 불확실성을 알레아틱과 에피스테믹으로 분리하는 방법이 없었다. 본 논문은 베이지안 예측 추론(BPI) 틀을 차용해, 감독 학습 상황에서 준마르티갈 조건을 만족하는 예측 중심극한정리(Predictive CLT)를 제시한다. 이 정리에서 도출된 변동성 기반 분산 추정량을 이용해 신속히 신뢰구간을 계산하고, 분류 문제에서는 엔트로피 기반 불확실성 분해까지 제공한다. 실험은 근사 신뢰구간이 명목 수준에 근접함을 보이며, 기존 베이지안 방법 대비 계산 효율성을 입증한다.
상세 분석
본 연구는 TabPFN이라는 변환기 기반 테이블 모델이 메타학습을 통해 베이지안 사후 예측분포(PPD)를 근사한다는 사실에 착안한다. 그러나 TabPFN은 내부적으로 사후분포를 명시적으로 유지하지 않기 때문에 전통적인 불확실성 분해, 즉 알레아틱(데이터 내재 변동)과 에피스테믹(모델 불확실성) 구분이 어려웠다. 이를 해결하기 위해 저자들은 베이지안 예측 추론(BPI) 프레임워크를 도입한다. BPI는 사전‑우도 쌍이 아니라 예측 규칙 자체를 기본 객체로 삼아, 예측 규칙의 시계열적 변화를 통해 사후 불확실성을 추정한다.
핵심 이론적 기여는 ‘준마르티갈(quasi‑martingale)’ 조건 하에서 성립하는 예측 중심극한정리(Predictive CLT)이다. 기존의 예측 CLT는 무조건 교환가능하거나 마팅게일 성질을 요구했지만, 감독 학습에서는 이러한 가정이 성립하지 않는다. 저자들은 예측 확률 (P_k(x,A))가 시간에 따라 준마르티갈 과정을 이룬다고 가정하고, 업데이트 차분 (\Delta_k = P_k - P_{k-1})의 누적 제곱합을 통해 공분산 행렬 (V_n = \frac{1}{n}\sum_{k=1}^n \Delta_k \Delta_k^\top)을 정의한다. 이 행렬은 미래 관측값을 시뮬레이션하지 않고도 에피스테믹 변동성을 정량화한다.
TabPFN에 적용할 때는 컨텍스트 데이터를 무작위 순열한 뒤, 각 prefix에 대해 모델을 순차적으로 호출한다. 이렇게 얻은 일련의 예측값과 차분을 이용해 (V_n)을 계산하면, 제한된 연산량(데이터 수 (n)에 비례하는 전방 패스)만으로 근사 사후 분포 (\tilde P|z_{1:n} \approx \mathcal N(P_n, V_n))를 얻는다. 이 분포는 총 불확실성의 가우시안 근사이며, 평균은 현재 예측, 공분산은 에피스테믹 불확실성을 나타낸다.
분류 문제에서는 성공 확률 (g_k(x)=P_k(x,{1}))에 대해 동일한 절차를 적용하고, 엔트로피 (H(g_k(x)))의 변동성을 추가함으로써 엔트로피 기반 불확실성 분해를 제시한다. 회귀에서는 누적 분포함수 (F_k(x,t))를 이용해 연속형 출력에 대한 CDF 형태의 불확실성을 추정한다.
실험에서는 시뮬레이션 데이터와 실제 탭 데이터셋을 사용해 신뢰구간의 빈도론적 커버리지를 평가했으며, 95% 신뢰구간이 명목 수준에 가깝게 유지됨을 확인했다. 또한, 기존 베이지안 신경망(BNN)이나 라플라스 근사와 비교했을 때 계산 시간은 수 초 수준으로 크게 앞섰다. 이러한 결과는 TabPFN이 제공하는 ‘즉시’ 예측 능력을 유지하면서도, 실용적인 불확실성 해석을 가능하게 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기