“리지는 그대로, 학생은 더 강하게: 무제한 자기증류가 가져오는 엄격한 개선과 정확한 대규모 해석”

읽는 시간: 6 분
...

📝 Abstract

Self-distillation (SD) is the process of retraining a student on a mixture of ground-truth labels and the teacher’s own predictions using the same architecture and training data. Although SD has been empirically shown to often improve generalization, its formal guarantees remain limited. We study SD for ridge regression in unconstrained setting in which the mixing weight $ξ$ may be outside the unit interval. Conditioned on the training data and without any distributional assumptions, we prove that for any squared prediction risk (including out-of-distribution), the optimally mixed student strictly improves upon the ridge teacher for every regularization level $λ> 0$ at which the teacher ridge risk $R(λ)$ is nonstationary (i.e., $R'(λ) \neq 0 $). We obtain a closed-form expression for the optimal mixing weight $ξ^\star(λ)$ for any value of $λ$ and show that it obeys the sign rule: $\operatorname{sign}(ξ^\star(λ))=-\operatorname{sign}(R'(λ)) $. In particular, $ξ^\star(λ)$ can be negative, which is the case in over-regularized regimes. To quantify the risk improvement due to SD, we derive exact deterministic equivalents for the optimal SD risk in the proportional asymptotics regime (where the sample and feature sizes $n$ and $p$ both diverge but their aspect ratio $p/n$ converges) under general anisotropic covariance and deterministic signals. Our asymptotic analysis extends standard second-order ridge deterministic equivalents to their fourth-order analogs using block linearization, which may be of independent interest. From a practical standpoint, we propose a consistent one-shot tuning method to estimate $ξ^\star$ without grid search, sample splitting, or refitting. Experiments on real-world datasets and pretrained neural network features support our theory and the one-shot tuning method.

💡 Analysis

**

1. 연구 배경 및 동기

  • Knowledge Distillation 은 대형 교사 모델을 작은 학생 모델에 압축하는 것이 주 목적이었으나, Self‑Distillation 은 교사와 학생이 동일 모델·데이터를 공유한다는 점에서 “스스로를 재학습한다”는 새로운 현상을 보여준다.
  • 기존 SD 연구는 대부분 **(ξ\in

📄 Content

**지식 증류(KD)**는 Buciluǎ et al. (2006), Ba와 Caruana (2014), Hinton et al. (2015) 등에 의해 처음 제안된 기법으로, 일반적으로 큰 teacher 모델이 가진 지식을 더 작은 student 모델에게 전달함으로써 모델 압축을 수행한다. 최근에는 teacher와 student가 동일한 아키텍처와 동일한 학습 데이터를 공유하는 상황에 이 패러다임을 적용한 **자기 증류(self‑distillation, SD)**가 활발히 연구되고 있다(Furlanello et al., 2018; Zhang et al., 2021). 모델이 자신의 예측값을 학습함으로써 성능이 향상된다는 점은 직관에 반하는 것처럼 보이지만, Chen et al. (2017, 2022), Li et al. (2017), Ahn et al. (2019), Li et al. (2021), Gou et al. (2021) 등에서 보고된 방대한 실증 결과는 SD가 실제로 일반화 능력을 크게 높일 수 있음을 보여준다. 그럼에도 불구하고, 이러한 향상이 언제, 어떤 조건에서 보장되는지는 아직 명확히 밝혀지지 않았다.


형식적 정의

(f)를 손실 함수 (\ell)를 이용해 ({(x_i,y_i)}{i=1}^n) 로 학습된 teacher 모델이라고 하자.
자기 증류는 동일한 데이터에 대해 student (f
{\text{sd}}) 를 다음과 같은 혼합 목적함수를 최소화하도록 학습한다.

[ \min_{f_{\text{sd}}}; \underbrace{(1-\xi)}{\text{ground‑truth}} ; \frac{1}{n}\sum{i=1}^n \ell\bigl(f_{\text{sd}}(x_i),y_i\bigr) ;+; \underbrace{\xi}{\text{teacher}} ; \frac{1}{n}\sum{i=1}^n \ell\bigl(f_{\text{sd}}(x_i),f(x_i)\bigr), ]

여기서 (\xi)는 mixing parameter이며, 그림 1에 나타난 바와 같이 두 손실을 affine interpolation한다. (\xi=1)이면 student는 오직 teacher의 예측값만을 학습하게 되며, 이를 pure‑distillation (PD) 라고 부르고, 해당 predictor를 (f_{\text{pd}}) 로 표기한다.

전통적인 증류 방법은 (\xi\in[0,1]) 로 제한한다. 이는 목표 손실을 convex combination으로 해석하기 위함이다. 그러나 Das와 Sanghavi (2023)는 라벨 노이즈가 심한 상황에서는 최적 mixing weight (\xi^\star) 가 1보다 크게 될 수 있음을 보였다.

이러한 관찰에 동기부여를 받아, 우리는 (\xi)를 전혀 제한하지 않고 (\xi\in\mathbb{R}) (음수 포함) 로 허용한다. (\xi=0)이면 student는 teacher와 동일한 예측을 하게 되므로, (\xi)를 최적화하는 과정은 teacher보다 나빠질 수 없는 선택이 된다. 이 관점에서 우리는 다음과 같은 핵심 질문을 제기한다.

  1. (Q1) 최적 mixing weight (\xi^\star\in\mathbb{R}) 로 학습된 student (f_{\text{sd}}) 가 언제 teacher (f) 를 엄격히 능가하며, 그 이득은 얼마나 클 수 있는가?
  2. (Q2) 불완전한 teacher 로부터 시작한 최적 SD가 최적화된 teacher 와 동등한 성능을 달성할 수 있는가?
  3. (Q3) 비용이 많이 드는 그리드 탐색 없이 (\xi^\star) 를 효율적으로 추정할 수 있는 방법은 무엇인가?

우리는 ridge regression이라는 모델을 대상으로 위 질문들에 대한 완전한 해답을 제시한다. ridge regression에서는 SD가 명시적인 affine 경로(응답 공간에서)를 갖고, teacher와 student 모두의 위험(risk)을 정밀하게 기술할 수 있기 때문이다. 아래에서는 논문의 주요 기여를 상세히 설명한다(그림 2는 시각적 요약).


1. 구조적 비점근적 보장 (Section 2)

**(Q1)**에 답하기 위해, 우리는 관측된 학습 데이터에 조건부로 성립하는 deterministic identity들을 도출하였다. 이는 어떠한 분포 가정도 필요 없으며, 모든 제곱 예측 위험(out‑of‑distribution 위험 포함)에 대해 적용된다. 특히, 다음을 보였다.

  • (\lambda>0)에 대해 teacher ridge‑path 위험 ( \lambda \mapsto R(\lambda) ) 가 비정상(non‑stationary), 즉 (R’(\lambda)\neq0)이면 optimal mixing 은 teacher보다 엄격히 위험을 낮춘다 (Theorem 2.2).

**(Q2)**에 대해서는, 곡률 기반 충분조건을 제시한다. 이 조건이 만족되면, optimal mixing (\xi^\star(\lambda)) 로 얻은 SD 위험 (R^\star_{\text{sd}}(\lambda)) 의 전역 최소값이 teacher의 최소 ridge 위험보다 작다 (Proposition 2.3).


2. 정확한 비례 asymptotics (Section 3)

비례( proportional ) 설정—즉 표본 수 (n)와 특성 수 (p)가 모두 무한대로 가면서 비율 (p/n\to\gamma\in(0,\infty)) —에서 우리는 일반적인 이방성(covariance)과 결정적 신호를 허용한 deterministic equivalents를 도출하였다 (Theorem 3.1). 이 식들은

  • (\gamma) (차원 비율)
  • 신호‑대‑노이즈 비율 (SNR)
  • 신호와 공분산의 정렬(alignment)

에 대한 함수로서 SD 이득을 정량화한다. 특히, optimal mixing weight (\xi^\star) 가 음수가 되는 경우를 정확히 규정한다 (Corollary 3.2).

**(Q2)**에 관해, 등방성(isotropic) 랜덤 신호를 가정하면, 과소‑또는 과다‑정규화된 teacher라도 optimal SD는 최적 튜닝된 ridge predictor와 거의 동일한 위험을 달성한다 (Proposition 3.3).


3. 원샷 튜닝 (Section 4)

**(Q3)**에 대한 해답으로, 우리는 generalized cross‑validation (GCV) 기반의 일관된 원샷 추정량을 제안한다 (Theorem 4.1). 이 방법은

  • 샘플 분할이나 그리드 탐색 없이 (\xi^\star) 를 추정한다.
  • 후보 mixing weight마다 모델을 재학습할 필요가 없으며,
  • 비례 asymptotics 하에서 일관성을 보장한다.

우리는 합성 데이터, UCI 회귀 벤치마크, 사전 학습된 ResNet‑18 피처 등에서 광범위한 실험을 수행해 이론과 튜닝 방법의 유효성을 검증하였다.


4. 확장 및 변형 (Section 5)

다음과 같은 자연스러운 변형들을 추가로 분석하였다.

변형주요 결과
다중 라운드 증류 (Section D.1)위험이 단조 감소함을 보이는 monotonicity property
새로운 피처에 대한 teacher 예측 사용 (Section D.2)동일 피처(same‑X) 설정이 등방성 상황에서 우월함을 증명
일반화된 ridge 및 kernel ridge (Section D.3)기존 결과를 일반화하여 커널 기반 모델에도 적용 가능

5. 기존 연구와의 차별점

고정 설계(fixed‑design) 분석

초기 이론적 작업은 학생이 teacher를 얼마나 잘 모방할 수 있는가에 초점을 맞추었다(Phuong & Lampert, 2019; Ji & Zhu, 2020). 커널 ridge에서는 Mobahi et al. (2020)이 반복 SD가 effective function class를 축소시켜 정규화 효과와 유사함을 보였지만, 성능 향상 보장은 다루지 않았다. Das & Sanghavi (2023)은 mixing weight (\xi) 가 bias‑variance trade‑off에 미치는 영향을 분석했으며, Pareek et al. (2024)는 다중 라운드 SD에서의 이득을 정량화했다. 그러나 이들 모두 점별(strict) 개선 여부를 다루지 않았으며, 전역 최적 (\lambda) 를 찾는 것이 어려운 현실을 간과했다(예: Stephenson et al., 2021).

랜덤 설계(random‑design) 분석

Emrullah Ildiz et al. (2025)는 anisotropic covariance 하에서 KD를 분석했으며, pure‑distilled ridge((\xi=1))의 scaling law에 집중했다. 그러나 그들은 ridge penalty (\lambda>0)distillation weight (\xi) 사이의 상호작용을 충분히 탐구하지 못했다. 우리 연구는 over‑regularized 상황에서 negative (\xi^\star) 가 필요함을 밝히며, 이는 기존 분석이 놓친 중요한 현상이다(그림 2 참고).

비점근적 비례 asymptotics

최근 문헌은 random matrix theorystatistical physics 도구를 이용해

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키