계층적 진행형 다교사 지식 증류와 효율적 모델 압축

계층적 진행형 다교사 지식 증류와 효율적 모델 압축
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HPM‑KD는 메타‑러닝 기반 자동 하이퍼파라미터 설정, 자동 중간 모델 생성, 입력별 가중치를 학습하는 다교사 어텐션, 동적 온도 스케줄러, 병렬 파이프라인, 결과 캐시 등 여섯 가지 모듈을 결합한 통합 프레임워크이다. CIFAR‑10/100 및 UCI 탭ular 데이터셋에서 10‑15배 압축하면서도 원 모델 정확도의 85 % 이상을 유지하고, 수동 튜닝 없이 30‑40 % 학습 시간을 절감한다.

상세 분석

본 논문은 지식 증류(KD)의 네 가지 주요 한계를 체계적으로 분석하고, 이를 동시에 해결하기 위한 종합 시스템인 HPM‑KD를 제안한다. 첫 번째 모듈인 Adaptive Configuration Manager(ACM)는 데이터셋 크기, 클래스 수, 특성 차원, 교사·학생 파라미터 수 등 7가지 메타피처를 추출하고, 과거 실험 기록을 활용한 랜덤 포레스트 회귀 모델로 최적 온도 T, 손실 가중치 α, 학습률, 에폭 수 등을 자동 예측한다. 이는 기존 KD가 요구하던 수작업 그리드 서치를 완전히 대체한다.

두 번째 모듈인 Progressive Distillation Chain(PDC)은 교사와 학생 사이에 기하 평균 기반으로 파라미터 수를 단계적으로 감소시키는 중간 모델을 자동 생성한다. 개선 임계값 ε = 0.5 %를 두어, 각 단계에서 정확도 향상이 충분하지 않으면 체인을 종료함으로써 과도한 중간 모델 생성을 방지한다. 이 접근법은 대용량 교사와 소형 학생 사이의 용량 격차(capacity gap)를 효과적으로 메워준다.

세 번째 모듈인 Attention‑Weighted Multi‑Teacher Ensemble(AWMT)은 각 교사의 로짓과 입력을 결합한 후 tanh‑활성화와 선형 변환을 통해 스코어 e_k를 계산하고, 소프트맥스로 샘플별 가중치 α_k(x)를 얻는다. 엔트로피 정규화(β = 0.1)를 추가해 모든 교사가 고르게 활용되도록 하면서도, 특정 도메인에 특화된 교사는 해당 샘플에서 높은 가중치를 받는다. 실험 결과, 교사별 전문성이 시각화된 어텐션 맵을 통해 직관적으로 확인할 수 있다.

네 번째 모듈인 Meta‑Temperature Scheduler(MTS)는 현재 에포크 t와 손실 변화율을 이용해 온도 T(t) = T₀·


댓글 및 학술 토론

Loading comments...

의견 남기기