실시간 스마트폰 TTS를 위한 트랜스포머 기반 Mimi 디코더

실시간 스마트폰 TTS를 위한 트랜스포머 기반 Mimi 디코더
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 Mimi 코덱의 디컨볼루션 기반 디코더를 완전 트랜스포머 구조인 T‑Mimi로 교체하여 모바일 CPU에서의 지연을 42.1 ms에서 4.4 ms로 9.6배 감소시켰다. 또한 양자화 인식 학습(QAT)을 적용해 모델 크기를 절반 이하로 줄이면서, 파형에 가까운 마지막 두 트랜스포머 레이어와 선형 레이어는 32‑bit 정밀도를 유지해야 음질 저하가 없음을 밝혀냈다.

상세 분석

T‑Mimi는 기존 Mimi 디코더가 8개의 트랜스포머 레이어와 뒤따르는 디컨볼루션(up‑sampling) 블록으로 구성된 하이브리드 구조를 그대로 유지하되, 디컨볼루션을 4개의 추가 트랜스포머 레이어와 2개의 선형 레이어로 대체한 설계이다. 이때 윈도우 기반 스트리밍 셀프‑어텐션을 사용해 실시간 스트리밍 요구를 만족한다. 파라미터 수는 동일하게 유지하면서도 연산량은 13 % 수준으로 감소한다는 점이 핵심이다.

학습 단계는 두 단계로 나뉜다. 첫 번째 단계에서는 멀티스케일 멜‑스펙트로그램 L1 손실(가중치 2.0)과 LS‑GAN 손실·피처 매칭 손실(각 가중치 4.0) 그리고 추가 L1 손실(가중치 0.1)을 결합한 복합 손실을 사용해 전체 모델을 학습한다. 두 번째 단계에서는 피처 매칭 손실만을 사용해 미세 조정함으로써 주관적 음질을 향상시킨다. 또한 10 % 데이터에 무음 구간을 앞·뒤에 삽입하는 데이터 증강을 도입해 무음 구간에서 발생하는 잡음 현상을 크게 억제하였다.

양자화 인식 학습에서는 4‑bit 그룹‑와이즈와 8‑bit 채널‑별 양자화를 실험했으며, 특히 파형 재구성에 직접 관여하는 마지막 두 트랜스포머 레이어와 두 선형 레이어를 FP32로 유지하는 것이 PESQ, STOI, SI‑SDR 모두에서 현저히 높은 성능을 보였다. 최적의 혼합 정밀도 구성은 앞선 10 레이어를 8‑bit, 마지막 2 레이어를 32‑bit로 유지하는 방식이며, 이는 저장 용량을 163.2 MB에서 68.7 MB(≈58 % 감소)로 줄이면서도 PESQ 3.16(비양자화 모델 3.21에 근접)이라는 결과를 얻었다.

실제 모바일 벤치마크는 삼성 Galaxy S22에서 수행되었으며, T‑Mimi는 80 ms 오디오 청크당 평균 4.4 ms의 지연을 기록했다. 이는 기존 CNN‑Mimi(윈도우 5) 42.1 ms 대비 9.6배 빠른 수치이며, 윈도우를 2로 축소한 경우에도 18 ms로 여전히 T‑Mimi보다 느리다. 따라서 디컨볼루션 레이어가 모바일 CPU에서 비효율적인 주요 원인임을 실증적으로 확인했다.

아키텍처 확장 실험에서는 레이어 수를 8→12로 늘릴 경우 PESQ가 2.61→2.95로 크게 향상되었으며, 선형 레이어 차원을 2048→3072로 확대해도 품질이 약간 개선되지만 저장량이 6 MB 정도 증가한다는 트레이드오프가 관찰되었다. 16 레이어까지 확장하면 추가적인 품질 향상이 미미함을 확인해 12 레이어·2048 차원 구성이 실용적인 최적점임을 제시한다.

전반적으로 T‑Mimi는 트랜스포머만으로 구성된 경량 디코더가 모바일 실시간 TTS에 충분히 적합함을 입증했으며, 양자화 전략에서 “파형에 가까운 레이어는 고정밀 유지”라는 일반화 가능한 원칙을 제시한다. 이는 향후 다른 신경 오디오 코덱을 모바일에 최적화할 때도 적용 가능한 설계 가이드라인이 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기