Gompertz 곡선 기반 동적 지식 증류 프레임워크
본 논문은 Gompertz 성장 모델을 활용해 증류 손실 가중치를 시기별로 조절하는 동적 지식 증류 기법인 Gompertz‑CNN을 제안한다. 학생 모델의 학습 단계에 따라 초기 저성장, 중기 급성장, 후기 포화라는 세 단계의 학습 곡선을 반영해, Wasserstein 거리 기반 특징 정합과 그래디언트 매칭을 결합한 다중 손실 함수를 설계하였다. CIFAR
초록
본 논문은 Gompertz 성장 모델을 활용해 증류 손실 가중치를 시기별로 조절하는 동적 지식 증류 기법인 Gompertz‑CNN을 제안한다. 학생 모델의 학습 단계에 따라 초기 저성장, 중기 급성장, 후기 포화라는 세 단계의 학습 곡선을 반영해, Wasserstein 거리 기반 특징 정합과 그래디언트 매칭을 결합한 다중 손실 함수를 설계하였다. CIFAR‑10/100 실험에서 ResNet‑50→MobileNet‑v2 등 다양한 교사‑학생 조합에 적용했을 때 기존 증류 방법 대비 각각 최대 8%·4%의 정확도 향상을 기록하였다.
상세 요약
Gompertz‑CNN은 기존 지식 증류(KD) 방법이 학생 모델의 학습 역량을 정적인 가중치로만 조절한다는 한계를 지적하고, 이를 해결하기 위해 생물학적 성장 모델인 Gompertz 함수를 도입한다는 점에서 혁신적이다. Gompertz 함수 (G(t)=a\exp(-b\exp(-ct)))는 시간 (t)에 따라 초기 완만한 성장, 중간 급격한 상승, 최종 포화 단계로 변하는 S‑형 곡선을 제공한다. 논문은 이 곡선을 “증류 가중치 스케줄러”로 활용해, 학습 초기에 교사‑학생 간 손실을 낮게 유지함으로써 학생이 자체적인 기초 표현을 충분히 형성하도록 하고, 중기에는 가중치를 급격히 상승시켜 교사의 풍부한 지식을 빠르게 흡수하도록 설계하였다. 후기에는 가중치를 다시 감소시켜 과도한 교사 의존을 방지하고, 자체 일반화 능력을 강화한다.
기술적 구현 측면에서 저자는 두 가지 핵심 정합 메커니즘을 도입한다. 첫째, 특징 레벨에서의 차이를 Wasserstein 거리로 측정한다. 이는 전통적인 L2 손실보다 분포 간 차이를 더 정밀하게 포착해, 학생이 교사의 중간 표현을 보다 정확히 모방하도록 돕는다. 둘째, 그래디언트 매칭을 통해 역전파 단계에서 교사와 학생의 기울기 방향을 일치시키는 손실을 추가한다. 이 두 정합 손실을 각각 (\mathcal{L}{\text{W}})와 (\mathcal{L}{\text{G}})라 두고, 최종 목표 함수는
\
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...