계층적 진행형 다교사 지식 증류와 효율적 모델 압축
초록
HPM‑KD는 메타‑러닝 기반 자동 하이퍼파라미터 설정, 자동 중간 모델 생성, 입력별 가중치를 학습하는 다교사 어텐션, 동적 온도 스케줄러, 병렬 파이프라인, 결과 캐시 등 여섯 가지 모듈을 결합한 통합 프레임워크이다. CIFAR‑10/100 및 UCI 탭ular 데이터셋에서 10‑15배 압축하면서도 원 모델 정확도의 85 % 이상을 유지하고, 수동 튜닝 없이 30‑40 % 학습 시간을 절감한다.
상세 분석
본 논문은 지식 증류(KD)의 네 가지 주요 한계를 체계적으로 분석하고, 이를 동시에 해결하기 위한 종합 시스템인 HPM‑KD를 제안한다. 첫 번째 모듈인 Adaptive Configuration Manager(ACM)는 데이터셋 크기, 클래스 수, 특성 차원, 교사·학생 파라미터 수 등 7가지 메타피처를 추출하고, 과거 실험 기록을 활용한 랜덤 포레스트 회귀 모델로 최적 온도 T, 손실 가중치 α, 학습률, 에폭 수 등을 자동 예측한다. 이는 기존 KD가 요구하던 수작업 그리드 서치를 완전히 대체한다.
두 번째 모듈인 Progressive Distillation Chain(PDC)은 교사와 학생 사이에 기하 평균 기반으로 파라미터 수를 단계적으로 감소시키는 중간 모델을 자동 생성한다. 개선 임계값 ε = 0.5 %를 두어, 각 단계에서 정확도 향상이 충분하지 않으면 체인을 종료함으로써 과도한 중간 모델 생성을 방지한다. 이 접근법은 대용량 교사와 소형 학생 사이의 용량 격차(capacity gap)를 효과적으로 메워준다.
세 번째 모듈인 Attention‑Weighted Multi‑Teacher Ensemble(AWMT)은 각 교사의 로짓과 입력을 결합한 후 tanh‑활성화와 선형 변환을 통해 스코어 e_k를 계산하고, 소프트맥스로 샘플별 가중치 α_k(x)를 얻는다. 엔트로피 정규화(β = 0.1)를 추가해 모든 교사가 고르게 활용되도록 하면서도, 특정 도메인에 특화된 교사는 해당 샘플에서 높은 가중치를 받는다. 실험 결과, 교사별 전문성이 시각화된 어텐션 맵을 통해 직관적으로 확인할 수 있다.
네 번째 모듈인 Meta‑Temperature Scheduler(MTS)는 현재 에포크 t와 손실 변화율을 이용해 온도 T(t) = T₀·
댓글 및 학술 토론
Loading comments...
의견 남기기