FastWhisper 실시간 자동 음성 인식을 위한 적응형 자기 지식 증류

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 Whisper 모델을 경량화하기 위해 적응형 자기 지식 증류(ASKD) 기법을 제안한다. AKD 단계에서 교사 모델에 대한 의존도를 점진적으로 감소시켜 학생 모델의 자체 학습 능력을 강화하고, 이후 SKD 단계에서 이전 에포크의 소프트 라벨을 활용해 일반화 성능을 높인다. FastWhisper‑small(152M)과 FastWhisper‑large(740M)를 구축했으며, Whisper 대비 WER를 0.97%p 낮추고 추론 속도를 5배 가속화했다.

상세 분석

ASKD는 기존 지식 증류(KD)의 두 가지 한계를 동시에 해결한다. 첫째, 교사 모델에 과도하게 의존하면 학생 모델이 교사의 오류를 그대로 물려받아 일반화가 저하되는 문제이다. 이를 완화하기 위해 Adaptive Knowledge Distillation(AKD) 단계에서 α_AKD를 에포크 진행에 따라 지수적으로 감소시킨다. 초기에는 α_AKD=1로 설정해 교사의 풍부한 정보를 충분히 흡수하고, warm‑up 에포크 이후에는 α_AKD=α_initial·e^{−E/E_t} 형태로 감소시켜 학생 모델이 자체적인 표현을 스스로 정제하도록 유도한다. 이 과정은 KL‑divergence 기반 손실 L_AKD=α_AKD·KL(P_S‖P_T)로 구현되며, 교사와 학생의 예측 분포 차이를 최소화하면서도 점진적인 자유도를 제공한다.

둘째, 기존 Self‑Knowledge Distillation(SKD)은 소프트 라벨을 고정된 비율로만 사용해 학습 초기에 학생 모델이 충분히 안정되지 않은 상태에서도 소프트 라벨에 의존하게 만든다. ASKD는 AKD 단계가 끝난 시점(α_AKD ≤ λ)에서 SKD를 전이시키며, 이전 에포크의 학생 예측 P_T를 소프트 라벨로 활용한다. 여기서 α_SKD는 에포크에 비례해 선형적으로 증가(α_SKD=α_initial·e/E_t)시켜 학습이 진행될수록 하드 라벨(y)보다 소프트 라벨의 비중을 높인다. 손실은 L_SKD=CE(((1−α_SKD)·y+α_SKD·P_T), P_S)로 정의돼, 하드·소프트 라벨의 균형을 동적으로 조절한다.

모델 설계 측면에서 FastWhisper는 Whisper‑small/large 인코더를 그대로 재사용하고, 경량화된 3‑layer Transformer 디코더를 결합했다. 이는 대규모 사전학습된 인코더가 제공하는 풍부한 음성 특징을 유지하면서 디코더 파라미터를 크게 줄여 실시간 추론에 적합하도록 만든다. 실험에서는 LibriSpeech, TED‑LIUM, LJSpeech, Earnings‑22, AMI 등 1,620시간 규모의 다중 도메인 데이터를 사용해 학습했으며, GigaSpeech와 VoxPopuli 같은 미노출 데이터에서도 일반화 성능을 검증했다.

결과적으로, FastWhisper‑small은 표준 KD+PL 대비 WER를 0.39%p 개선했고, ASKD 적용 시 Test‑clean에서 2.95% (Whisper‑small 3.05% 대비)로 가장 낮은 오류율을 기록했다. FastWhisper‑large는 Whisper‑large‑v3 대비 평균 WER를 1.23%p 낮추면서, 추론 속도는 5배 가속화했다. α_AKD 최소값을 0.5로 설정했을 때 가장 효과적인 증류가 이루어졌으며, 이는 교사 의존도를 적절히 낮추면서도 충분한 정보 전달을 유지하는 최적점임을 실험적으로 확인했다. 전반적으로 ASKD는 교사‑학생 간 지식 전달을 동적으로 조절함으로써, 경량 모델에서도 대규모 모델에 버금가는 정확도와 실시간 성능을 동시에 달성할 수 있음을 보여준다.

FastWhisper 실시간 자동 음성 인식을 위한 적응형 자기 지식 증류

초록

상세 분석

댓글 및 학술 토론

의견 남기기