“온도 스케일링의 진실: 불확실성 조절과 엔트로피의 기하학적 해석”
📝 Abstract
Temperature scaling is a simple method that allows to control the uncertainty of probabilistic models. It is mostly used in two contexts: improving the calibration of classifiers and tuning the stochasticity of large language models (LLMs). In both cases, temperature scaling is the most popular method for the job. Despite its popularity, a rigorous theoretical analysis of the properties of temperature scaling has remained elusive. We investigate here some of these properties. For classification, we show that increasing the temperature increases the uncertainty in the model in a very general sense (and in particular increases its entropy). However, for LLMs, we challenge the common claim that increasing temperature increases diversity. Furthermore, we introduce two new characterisations of temperature scaling. The first one is geometric: the tempered model is shown to be the information projection of the original model onto the set of models with a given entropy. The second characterisation clarifies the role of temperature scaling as a submodel of more general linear scalers such as matrix scaling and Dirichlet calibration: we show that temperature scaling is the only linear scaler that does not change the hard predictions of the model.
💡 Analysis
**
1. 연구 배경 및 필요성
- 불확실성 정량화는 딥러닝에서 아직 해결되지 않은 핵심 문제이며, 이론적 한계와 실용적 솔루션 사이에 큰 격차가 존재한다(예: Foygel‑Barber et al., 2021).
- 온도 스케일링은 단일 스칼라 파라미터만으로 모델의 확신도를 조절할 수 있어, 캘리브레이션과 LLM 디코딩 모두에서 실무적으로 널리 채택되고 있다. 그러나 기존 연구는 주로 경험적 사용에 머물렀고, 엄밀한 수학적 분석은 부족했다.
2. 주요 기여
| 번호 | 내용 | 의의 |
|---|---|---|
| ① | 분류에서 온도 ↑ ⇒ 엔트로피 ↑ (불확실성 증가) 증명 | 온도 스케일링이 “불확실성 감소 → 온도 감소”라는 직관을 정량적으로 뒷받침 |
| ② | LLM에서는 온도 ↑ 가 반드시 다양성 ↑ 를 의미하지 않음(반례 제시) | 현재 LLM 디코딩에서 온도 파라미터를 그냥 “다양성 조절” 로 보는 관행에 경고 |
| ③ | 정보 투영 해석: 온도 스케일링은 원 모델에서 주어진 엔트로피를 갖는 가장 가까운 모델(KL‑다이버전스 최소) | 엔트로피 제어를 최적화 문제 로 재구성, 기존 캘리브레이션 손실과 연결 |
| ④ | 정확도 보존 선형 스케일러의 유일성 증명 (온도 스케일링만이 hard‑prediction 순서를 바꾸지 않음) | 행렬 스케일링·디리클레 캘리브레이션 등 더 복잡한 스케일러와 차별화, 왜 온도 스케일링이 선호되는가에 대한 근본적 설명 |
3. 이론적 접근법
- 통계 물리학 관점: 온도 스케일링을 Boltzmann‑Gibbs 분포의 역온도 β 로 해석, 로그잇(logit) ↔ 에너지 매핑을 이용해 partition function 의 미분이 확률 모멘트와 직접 연결됨.
- 볼록 최적화: 교차 엔트로피 손실 L(β) 가 부드럽고 볼록함을 보이고, 거의 모든 실제 상황에서 엄격히 볼록이므로 전역 최적점이 유일함을 증명. 이는 L‑BFGS, Brent, 이분법 등 간단한 최적화 알고리즘으로도 빠르게 수렴함을 의미한다.
- 엔트로피 투영: 주어진 엔트로피 H* 를 만족하는 확률 분포 집합 𝒮(H*) 에 대해, 원 모델 π 와 KL‑다이버전스 최소화 문제
\
📄 Content
신뢰할 수 있는 불확실성 정량화는 아직도 해결되지 않은 문제이며, 이론적 한계(Foygel Barber 등, 2021)와 다양한 제안된 해결책들(예: Silva Filho 등, 2023; Angelopoulos 등, 2023; Ulmer 등, 2023; Papamarkou 등, 2024) 사이에 놓여 있습니다.
1. 서론
Guo 등(2017)은 **온도 스케일링(temperature scaling)**이라는 오래되고 매우 단순한 불확실성 정량화 방법을 제안했습니다. 이 기법은 **하나의 스칼라 파라미터(온도)**만을 이용해 학습된 신경망의 신뢰도를 조정합니다. 복잡한 불확실성 정량화 분야에서 온도 스케일링은 엄청난 인기를 얻은 방법으로 자리 잡았습니다.
- 산업용 머신러닝에서는 모델을 보정(calibrate)하는 데 사용되며, Scikit‑learn 라이브러리(Pedregosa 등, 2011)에도 구현돼 있습니다.
- **대형 언어 모델(LLM)**에서는 추론 과정을 제어하는 데 쓰이며, GPT‑4(Achiam 등, 2023), Gemini(Gemini Team, 2025), DeepSeek(Liu 등, 2024), Mistral(Rastogi 등, 2025) 등 거의 모든 최신 LLM에서 명시적으로 언급됩니다.
- 다른 불확실성 정량화 기법들도 온도 스케일링을 구성 요소로 활용합니다(예: Berta 등, 2025a; Gibbs 등, 2025).
그럼에도 불구하고 온도 스케일링에 대한 이론적 연구는 매우 부족합니다. 예외적으로는
- Clarté 등(2023a, b)이 모델 오규격화(model misspecification) 하에서의 점근적 행동을 분석했으며,
- Dabah와 Tirer(2025)가 온도 스케일링과 컨포멀 예측(conformal prediction) 사이의 상호작용을 탐구했으며,
- Berta 등(2025b)이 언제 온도 스케일링이 **최적(optimal)**이 될 수 있는지, 언제 그렇지 않은지를 연구했습니다.
이러한 연구가 적은 이유는 모델 자체가 단순하고 통계학·머신러닝·통계 물리학에서 이미 많이 다루어진 형태와 닮아 있기 때문일 수 있습니다. 그럼에도 불구하고, 온도 스케일링을 철저하면서도 기본적인 시각에서 재조명하는 작업은 시기적절하고 흥미로운 과제라 생각합니다.
본 논문은 2장에서 온도 스케일링을(분류와 LLM 모두에 대해) 재검토하고, 주요 기여는 다음과 같습니다.
- 섹션 3: 분류 문제에서는 온도를 높이면 모델의 불확실성이 증가한다는 직관이 맞지만, LLM에서는 반드시 그렇지 않을 수 있음을 강조합니다.
- 섹션 4: 온도 스케일링을 정보 투사(information projection) 로 해석합니다. 즉, “템퍼드(tempered) 모델”은 원본 모델 중 엔트로피가 요구 수준에 가장 가까운 모델이라는 의미입니다.
- 섹션 5: 온도 스케일링은 정확도 보존(accuracy‑preserving) 특성을 갖습니다. 실제로 이것이 유일하게 정확도를 보존하는 선형 스케일러임을 증명합니다.
2. 온도 스케일링이란?
우선 사전 학습된 모델
[ f : \mathcal{X}\rightarrow\mathbb{R}^{K} ]
을 생각합니다. 여기서 (K)는 클래스 수이며, 예를 들어 이미지 분류용 신경망이 될 수 있습니다. 모델의 출력은 로짓(logits) (z = f(x))이며, 이를 소프트맥스(softmax) 를 통해 확률 (\pi) 로 변환합니다.
[ \pi_k = \frac{e^{z_k}}{\sum_{j=1}^{K}e^{z_j}},\qquad k=1,\dots ,K. ]
이때 (\pi_k)는 “클래스 (k)에 할당된 확률”을 의미합니다. 분류 작업에서는 과신(over‑confidence) 문제가 자주 보고되며, 이는 보정(calibration) 이 어려워지는 원인이 됩니다(Guo 등, 2017; Minderer 등, 2021). LLM에서는 사용자가 생성 텍스트의 다양성(diversity) 을 조절하고 싶어 온도 파라미터를 직접 조정합니다.
2.1 온도 스케일링의 정의
온도 스케일링은 모든 로짓에 양의 스칼라 (\beta>0) 를 곱하는 방식으로 정의됩니다.
[ p_{\beta}(y\mid z)=\text{Categorical}\bigl(y\mid \pi^{(\beta)}\bigr),\qquad \pi^{(\beta)} = \text{Softmax}(\beta z). ]
(\beta)는 볼츠만‑깁스(Boltzmann‑Gibbs) 분포에서의 역온도(inverse temperature) 와 동일한 의미를 갖습니다. (\beta>0) 이므로 (\beta z)의 순서는 원래 로짓 (z)와 동일합니다. 따라서 hard prediction(가장 확률이 큰 클래스) 은 변하지 않으며, 온도 스케일링은 정확도 보존이라는 특성을 가집니다.
2.2 로짓이 없을 때는?
때때로 로짓 대신 클래스 확률 (\pi) 만을 얻을 수 있습니다. 이 경우 로그 확률 (\log \pi) 를 로짓의 대용으로 사용하면 됩니다. 비록 소프트맥스가 역함수가 아니므로 (\log \pi) 가 정확히 원래 로짓과 일치하지 않을 수 있지만, 두 접근법은 수학적으로 동등합니다(부록 A).
2.3 물리학적 해석
(K)개의 이산 상태를 가진 정준 앙상블(canonical ensemble) 에서 각 상태 (k)의 에너지를 (E_k=-z_k) 로 두면, 온도 스케일링은 바로 볼츠만‑깁스 분포가 됩니다.
[ p_{\beta}(k)=\frac{e^{-\beta E_k}}{Z(\beta)},\qquad Z(\beta)=\sum_{j=1}^{K}e^{-\beta E_j}. ]
여기서 (Z(\beta))는 분배함수(partition function) 로, 로그분배함수의 미분은 로짓의 모멘트(moment) 와 직접 연결됩니다(정리 1).
2.4 온도 튜닝 방법
보정 목적이라면 별도의 라벨이 있는 캘리브레이션 셋 ({(x_i,y_i)}_{i=1}^{n}) 을 사용합니다. 각 샘플에 대해 예측 확률 (\pi_i) 를 얻은 뒤, 교차 엔트로피 손실을 최소화함으로써 (\beta) 를 추정합니다.
[ \hat{\beta}= \arg\min_{\beta>0}; \frac{1}{n}\sum_{i=1}^{n} -\log p_{\beta}\bigl(y_i\mid z_i\bigr). ]
교차 엔트로피는 KL 발산을 최소화하는 역할을 하며, 적절한 점수 규칙(proper scoring rule) 이므로 보정된 확률이 잘 정렬됩니다(Blasiok 등, 2023).
2.5 최적화 특성
교차 엔트로피 (L(\beta))는 부드럽고(convex) 볼록 함수이며, 대부분의 경우 엄격히(convex) 최소점을 가집니다(정리 1). 따라서 L‑BFGS, 이분법(bisection), Brent 방법 등 어느 일반적인 1차 최적화 알고리즘이라도 빠르게 수렴합니다.
특히 **캘리브레이션 정확도가 100 %**인 경우 (\beta) 가 0에 가까워지는 현상이 나타날 수 있습니다. 이때는 (\beta\le 1) 로 제한하거나 라플라스 스무딩(Laplace smoothing) 같은 정규화를 적용하면 과도한 확신(over‑confidence)을 방지할 수 있습니다.
2.6 LLM에서의 활용
LLM에서는 두 가지 보정 개념이 있습니다.
- 다음 토큰 보정(next‑token calibration) – 자동 회귀(next‑token) 예측의 확률을 보정.
- 의미 보정(semantic calibration) – 질문‑응답 등 고차원 의미 작업의 확률을 보정.
대부분의 LLM은 사전 학습 단계에서 어느 정도 보정되어 있지만, 강화 학습 기반 파인튜닝이나 체인‑오브‑생각(chain‑of‑thought) 기법을 적용하면 보정이 크게 흐려집니다(Nakkiran 등, 2025). 온도 스케일링은 이러한 상황에서 수동적인 디코딩 하이퍼파라미터 로 활용되며, 사용자는 텍스트의 다양성(diversity) 을 직관적으로 조절합니다.
3. 높은 온도가 반드시 높은 불확실성을 의미할까?
분류 문제에서는 온도 (\beta) 를 증가시키면 엔트로피 (H(p_{\beta})) 가 감소한다는 것이 일반적인 직관입니다. 실제로 (\beta\to 0) 일 때는 균등 분포에 수렴하고, (\beta\to\infty) 일 때는 최대 확률 클래스에 집중합니다. 따라서 온도 조절은 불확실성(uncertainty) 과 확신(confidence) 사이를 연속적으로 이동시키는 매개체가 됩니다.
Proposition 2에 따르면 모든 (\beta>0) 에 대해
[ \frac{d}{d\beta} H\bigl(p_{\beta}\bigr) = -\operatorname{Var}{p{\beta}}[z], ]
즉, 엔트로피의 변화율은 로짓의 분산에 비례합니다. 로짓 분산이 클수록 온도 변화에 따른 엔트로피 변화가 급격해집니다.
하지만 LLM에서는 상황이 다릅니다. 온도를 높이면 텍스트 다양성이 증가할 수도, 예측 확률이 급격히 평탄화되어 실제로는 불확실성이 감소하는 경우도 있습니다(섹션 3 참고). 따라서 “높은 온도 = 높은 불확실성”이라는 명제는 LLM에 대해서는 반드시 성립하지 않는다는 점을 강조합니다.
4. 온도 스케일링의 기하학적 해석
온도 스케일링은
이 글은 AI가 자동 번역 및 요약한 내용입니다.