탭ular 기초 모델의 확률 예측, 적절한 점수 규칙으로 평가하고 개선하기
초록
본 논문은 TabPFN·TabICL 같은 탭ular 기반 모델이 제공하는 전체 예측 분포를 기존 RMSE·R² 중심의 벤치마크가 제대로 평가하지 못한다는 문제를 지적한다. 저자는 CRPS, CRLS, 에너지 점수 등 엄격히 적절한 스코어링 룰을 평가 지표로 도입하고, 20개의 OpenML 회귀 데이터셋에서 두 모델을 비교한다. 또한 서로 다른 스코어링 룰이 학습 과정에서 서로 다른 유도 편향을 만들며, 이를 활용해 TabPFN을 CRLS·β=1.8 에너지 점수로 미세조정하면 해당 지표에서 일관된 성능 향상이 나타난다. 결과적으로 분포 예측을 평가할 때 점수 규칙을 명시하고, 다운스트림 의사결정에 맞는 손실 함수로 모델을 조정할 필요성을 강조한다.
상세 분석
이 논문은 탭ular 기초 모델이 제공하는 확률적 예측을 평가하는 방법론적 결함을 체계적으로 파악한다. 기존 TabArena·TALENT 등은 RMSE·R²와 같은 점 추정 지표에만 초점을 맞추어, 모델이 조건부 평균을 잘 맞추는지 여부만을 판단한다. 그러나 TabPFN·TabICL은 히스토그램 형태의 전체 조건부 분포를 출력하므로, 예측 분포의 캘리브레이션·샤프니스까지 고려해야 한다. 이를 위해 저자는 엄격히 적절한 스코어링 룰(strictly proper scoring rules)의 개념을 도입한다. CRPS는 모든 분위수를 균등하게 가중해 연속 순위 점수를 제공하고, CRLS는 로그 점수와 유사하지만 순서 정보를 보존한다. β‑에너지 스코어는 β 파라미터를 조정함으로써 꼬리 위험을 강조하거나 완화할 수 있다. 논문은 이러한 스코어가 기대값 관점에서는 동일하게 진정한 분포를 최소화하지만, 유한 샘플에서의 경험적 최적화는 손실 함수의 기울기 구조에 따라 크게 달라진다는 점을 강조한다. 예를 들어 로그 점수는 저밀도 영역에서 무한대에 가까운 기울기를 발생시켜 학습이 불안정해질 수 있는 반면, CRPS는 제한된 기울기로 안정적인 수렴을 보인다. 이러한 차이는 모델이 학습 데이터의 제한된 정보에 어떻게 일반화되는지를 좌우한다. 실험에서는 20개의 OpenML 회귀 데이터셋에 대해 TabPFN v2.5와 TabICL v2를 동일한 사전학습 가중치로 시작해 각각 CRPS·CRLS·β‑에너지 점수로 미세조정한다. 결과는 (1) 점수별로 모델 순위가 변동하고, (2) 미세조정된 모델이 해당 점수에서 일관된 개선을 보이며, (3) 점수에 민감한 데이터셋에서는 기존 점수 기반 리더보드가 오히려 모델을 오판할 수 있음을 보여준다. 특히 다중 모드나 중량 꼬리를 가진 데이터에서 평균 기반 RMSE는 실제 분포와 큰 차이를 보이지만, CRPS·CRLS는 이러한 복잡성을 정확히 포착한다. 논문은 또한 점수 선택이 실제 의사결정 문제와 어떻게 연결되는지를 논의한다. 예를 들어 비용이 비대칭적인 상황에서는 β를 크게 잡은 에너지 점수가 더 적합하고, 신뢰구간이 중요한 경우에는 Interval Score가 유리하다. 따라서 모델 훈련 단계에서 손실 함수를 다운스트림 목표에 맞게 선택하거나, 토큰 기반 조건부 학습을 통해 동적으로 전환할 수 있는 메커니즘이 필요함을 제안한다. 전반적으로 이 연구는 확률적 회귀 모델의 평가와 학습에 있어 “점수 규칙을 명시하고 조정하라”는 강력한 메시지를 전달한다.
댓글 및 학술 토론
Loading comments...
의견 남기기