다국어 음성 인식과 강제 정렬을 위한 Qwen3 ASR 기술 보고서

다국어 음성 인식과 강제 정렬을 위한 Qwen3 ASR 기술 보고서
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Qwen3‑ASR는 1.7B와 0.6B 규모의 두 가지 전천후 자동음성인식 모델과 0.6B 규모의 비자동 강제 정렬 모델을 공개한다. 52개 언어·방언을 지원하며, 대규모 사전학습·강화학습을 통해 최신 오픈소스 모델을 능가하는 정확도와 실시간 처리 능력을 보여준다.

상세 분석

본 보고서는 Qwen3‑ASR 패밀리를 세부적으로 분석하면서 몇 가지 핵심 혁신을 강조한다. 첫째, Qwen3‑Omni 기반의 AuT(Attention‑U‑Transformer) 인코더를 재활용해 8배 다운샘플링된 12.5 Hz 토큰 스트림을 생성하고, 동적 플래시 어텐션 윈도우(1 s~8 s)를 적용함으로써 스트리밍과 오프라인 양쪽 모두에서 높은 효율성을 확보한다. 이는 기존 트랜스듀서·AED 모델이 고정된 윈도우 혹은 전체 시퀀스 처리에 의존하던 점을 크게 개선한다.

둘째, 학습 파이프라인이 네 단계로 구성된다. (1) 약 4천만 시간 규모의 의사 라벨링 음성 데이터를 이용한 AuT 사전학습, (2) 멀티모달(음성·시각·텍스트) 3 trillion 토큰을 활용한 Omni 사전학습, (3) 다언어·다방언·노이즈·스트리밍 강화 데이터를 포함한 SFT 단계, (4) 그룹 시퀀스 정책 최적화(GSPO)를 통한 강화학습이다. 특히 RL 단계에서 복합 환경(노이즈, 배경음악, 억양 변이)에서의 안정성을 크게 향상시킨 점이 주목할 만하다.

셋째, 모델 크기 대비 성능이 뛰어나다. 0.6B 모델은 평균 TTFT 92 ms, 동시성 128에서 초당 2 000 초 음성을 처리하는 RTF 0.064를 기록했으며, 1.7B 모델은 SOTA 오픈소스 ASR 성능을 달성하고 상용 API와도 경쟁한다. 이는 파라미터 수 대비 효율적인 구조와 고속 플래시 어텐션, 그리고 대규모 사전학습 덕분이다.

넷째, 최초로 LLM 기반 비자동 강제 정렬 모델(Qwen3‑ForcedAligner‑0.6B)을 제시한다. 텍스트에


댓글 및 학술 토론

Loading comments...

의견 남기기