다중언어 음성 표현을 위한 경량 TTA 모델
초록
본 논문은 Whisper의 한계를 극복하고 LLM과 효율적으로 결합할 수 있도록 설계된 250M 파라미터 이하의 경량 모델 TTA를 제안한다. Zipformer 기반 Transducer와 Attention‑Decoder를 결합한 하이브리드 구조에 다국어 BERT를 이용한 음성‑텍스트 정렬 손실을 추가해 358k 시간 규모의 다국어 ASR·ST·정렬 데이터를 공동 학습한다. 실험 결과 TTA는 Whisper Medium을 넘어서는 ASR·ST 정확도와 언어 간 음성 검색 성능을 보이며, 특히 LLM 연동 시 인코더의 표현력이 크게 향상됨을 입증한다.
상세 분석
TTA 모델은 기존 Whisper가 채택한 Conformer‑기반 인코더‑디코더 구조와 달리 Zipformer‑Transducer(ZT)와 Attention‑Encoder‑Decoder(AED)를 병합한 하이브리드 아키텍처를 사용한다. Zipformer는 Conformer 대비 연산량과 메모리 사용량이 크게 감소하면서도 시간‑주파수 로컬리티를 유지해 장시간 입력을 효율적으로 처리한다. ZT는 빠른 스트리밍 ASR을, AED는 비스트리밍 상황에서의 고품질 전사·번역을 담당한다. 두 브랜치를 동시에 학습함으로써 음성 신호의 언어‑불변 의미를 공유하도록 설계되었다.
핵심 혁신은 다국어 BERT(bert‑base‑multilingual‑uncased)를 고정된 텍스트 인코더로 활용하고, 음성 인코더 출력 H를 선형 변환 후 평균 풀링해 텍스트 임베딩 T와 대비시키는 SigLIP 기반 대조 손실을 도입한 점이다. 이 정렬 손실은 동일 의미의 음성‑텍스트 쌍을 가까이 끌어당기고, 다른 의미의 쌍은 멀리 떨어뜨려 다국어 임베딩 공간에서 언어 간 정렬을 강화한다. 손실 가중치는 0.1로 설정해 ASR 성능 저하를 최소화하면서 ST와 음성 검색에서의 교차언어 일관성을 크게 향상시켰다.
데이터 측면에서 저자는 10개 언어(zh, en, ja, ko, ru, vi, id, fr, es, pt)를 아우르는 358k 시간 규모의 ASR 데이터와 217k 시간 규모의 X→EN ST 데이터를 수집했다. ASR 데이터는 공개 코퍼스와 사내 데이터의 혼합이며, Whisper Large‑v3를 이용한 라벨 검증과 WER 임계값(10‑20%)을 적용해 품질을 보장했다. ST 데이터는 기존 X→EN 병렬 코퍼스와 LLM 기반 합성 데이터를 결합했으며, 각 샘플이 원본 ASR 데이터와 연결돼 데이터 비율 조절이 용이하도록 설계되었다.
학습은 3단계 스케줄링으로 진행된다. 1단계에서는 순수 ASR 데이터로 ZT 모델을 250k 스텝 학습하고, 2단계에서 동일 체크포인트를 초기화해 ZT‑AED와 ZT‑Align를 추가 학습한다. 3단계에서는 ASR와 ST 데이터를 3:2 비율로 혼합해 전체 모델을 500k 스텝 미세조정한다. 온도 파라미터 t를 1.0에서 0.2로 점진적으로 감소시켜 언어 간 데이터 불균형을 완화한다.
실험 결과는 다섯 가지 관점에서 평가되었다. (1) ASR 성능: CommonVoice, MLS, VoxPopuli 등 다국어 베치마크에서 Whisper Large‑v3 대비 0.5‑1.5% 낮은 WER를 기록했으며, 특히 zh·en 데이터에서 큰 이득을 보였다. (2) ST 성능: CoVoSTv2에서 BLEU 35.12점으로 Whisper Medium을 앞섰지만 Whisper Large‑v3에 약간 뒤처졌다. (3) 언어 식별(LID): Fleurs 10개 언어 모두 100% 정확도를 달성, Whisper Large‑v3는 인도네시아에서 81%에 머물렀다. (4) 음성‑텍스트 정렬 효과: 정렬 모듈을 포함한 ZT‑Align와 TT A는 ST 검증 손실이 평균 0.12 낮아, 정렬이 교차언어 표현을 강화함을 증명했다. (5) 음성‑음성 검색: 10개 언어 간 500쌍의 의미 동등 샘플을 이용한 코사인 유사도 기반 검색에서 TT A는 Whisper Large‑v2를 능가하는 73% 이상의 정확도를 달성했다.
또한, ASR와 ST 간 상관관계를 분석한 결과, 정렬 손실이 ASR WER에 미치는 부정적 영향은 0.1% 이하로 제한적이며, ST BLEU는 평균 0.6점 상승했다. 이는 교차언어 정렬이 ST와 검색에 유리하지만, 순수 음성 인식에는 큰 도움이 되지 않을 수 있음을 시사한다. 마지막으로, 경량 설계에도 불구하고 TT A의 인코더를 LLM(예: Qwen‑7B)과 결합했을 때, Whisper 기반 대비 텍스트 생성 품질과 응답 일관성이 현저히 개선되었다는 부가 실험 결과가 제시되었다.
종합하면, TTA는 (1) Zipformer‑Transducer와 Attention‑Decoder의 시너지, (2) 다국어 BERT 기반 정렬 손실, (3) 대규모 다언어 ASR·ST 공동 학습이라는 세 축을 통해 경량이면서도 강력한 교차언어 음성 표현을 구현했으며, 향후 음성‑LLM 통합 파이프라인의 효율성을 크게 높일 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기