SPADE 구조화 프루닝과 적응형 증류를 통한 효율적인 LLM TTS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델 기반 텍스트‑투‑스피치(LLM‑TTS) 시스템의 파라미터와 지연 시간을 줄이기 위해, 단어 오류율(Word Error Rate) 기반 레이어 중요도 지표인 WLI를 활용한 구조화 프루닝과 다단계 지식 증류를 결합한 SPADE 프레임워크를 제안한다. 실험 결과, Transformer 깊이를 절반으로 감소시키면서도 음성 자연스러움과 화자 유사도에서 거의 동일한 성능을 유지하고, VRAM 사용량을 최대 20 % 절감하고 실시간 인퍼런스 속도를 1.7배 가속한다.

상세 분석

SPADE는 LLM‑TTS 모델의 효율성을 극대화하기 위해 두 가지 핵심 기술을 통합한다. 첫 번째는 WLI(Word‑Error‑Rate‑based Layer Importance)라는 새로운 레이어 중요도 지표이다. 기존 텍스트‑전용 LLM 압축 연구에서는 레이어 입력‑출력 간 코사인 거리(CLI)를 사용했지만, 음성 합성에서는 레이어가 최종 텍스트‑음성 정합도에 미치는 영향을 직접 측정하는 것이 더 중요하다. 저자들은 Whisper 기반 ASR을 활용해 각 레이어를 제거했을 때 WER가 얼마나 상승하는지를 평균적으로 계산하고, WLI가 낮은 레이어를 선택적으로 삭제한다. 실험적으로 초기, 중간, 말단 레이어가 가장 중요한 반면, 중간‑후반부에 위치한 다수의 레이어는 WLI가 낮아 제거해도 성능 저하가 미미함을 확인하였다.

두 번째는 다단계 지식 증류이다. 프루닝 후 모델은 레이어 간 연결이 끊겨 잠재 표현 흐름이 손상되므로, 원본(teacher) 모델과 학생(student) 모델 사이에 임베딩, 로그잇, 중간 잠재(L), 어텐션(A) 등 네 종류의 정렬 손실을 동시에 적용한다. 특히 L과 A 손실은 동적으로 대상 레이어를 선택하는데, 이는 학생 모델의 남아 있는 레이어와 교사의 다음 보존 레이어 사이의 정보를 매핑함으로써, 삭제된 레이어가 수행하던 정제 작업을 간접적으로 학습하게 만든다. 손실 가중치 α는 0.25로 설정해 교사의 지도보다 지도 학습을 더 강조한다.

실험은 CosyVoice 2와 LLaSA‑1B 두 대표적인 LLM‑TTS 백본을 대상으로 수행되었다. 전체 파라미터 대비 40 %까지 감소시키고, VRAM 사용량을 14 %~~20 % 절감했으며, 실시간 팩터(RTF)를 1.4배~~1.7배 향상시켰다. 특히 12층(절반) 구조에서는 WER가 0.68% 상승하고 NMOS가 0.11 감소하는 정도로, 청취자 주관 평가와 객관 지표 모두에서 큰 품질 저하 없이 효율성을 확보했다. 더 공격적인 9층 설정에서는 파라미터가 49 % 감소하고 RTF가 45 % 개선되었지만, WER가 약 2 % 상승하는 등 품질‑효율 트레이드오프가 명확히 드러났다.

Ablation 연구에서는 기존 코사인 기반 프루닝이 WER와 CER을 크게 악화시키는 반면, WLI 기반 프루닝은 성능 저하를 최소화함을 확인했다. 또한 동적 목표 레이어 선택 없이 단순히 동일 레이어 간 정렬만 수행하면 성능이 현저히 떨어져, 제안된 적응형 증류 전략이 핵심임을 입증하였다.

한계점으로는 WLI 계산에 ASR 모델이 필요해 추가 연산 비용이 발생하고, 다국어·다화자 상황에서 레이어 중요도가 동일하게 적용될 수 있는지에 대한 검증이 부족하다. 또한 증류 손실에 사용된 MSE 기반 정렬이 고차원 잠재 표현의 미묘한 차이를 충분히 포착하지 못할 가능성도 있다. 향후 연구에서는 경량 ASR을 이용한 WLI 추정, 멀티모달 정규화, 그리고 양자화와 결합한 하이브리드 압축 방안을 탐색할 여지가 있다.

SPADE 구조화 프루닝과 적응형 증류를 통한 효율적인 LLM TTS

초록

상세 분석

댓글 및 학술 토론

의견 남기기