억양 인식 향상을 위한 전문가 혼합과 중간 CTC 지도
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 억양별 음성 인식 성능 저하 문제를 해결하기 위해, FastConformer 기반의 Mixture‑of‑Experts(MoE) 구조에 중간 CTC 감독을 결합한 Moe‑Ctc 모델을 제안한다. 학습 단계에서는 억양 라벨을 이용해 전문가를 억양에 특화시키고, 이후 라벨 없이도 자동 라우팅이 가능하도록 두 단계 학습을 수행한다. 각 전문가마다 독립적인 CTC 헤드를 두어 전사 품질과 라우팅을 직접 연계하고, 라우팅‑보강 손실을 추가해 최적화를 안정화한다. MC‑Accent 벤치마크에서 기존 FastConformer 대비 최대 29.3% 상대 WER 감소를 기록하며, 보이지 않는 억양에서도 일관된 개선을 보였다.
상세 분석
Moe‑Ctc는 억양 인식이라는 특수한 도메인에 MoE를 적용하면서도, 기존 MoE가 겪는 라우팅 불안정성과 라벨 의존성 문제를 동시에 해결한다는 점에서 의미가 크다. 먼저, FastConformer 인코더에 층별 MoE 모듈을 삽입하고, 각 모듈은 N개의 전문가(Feed‑Forward 블록)와 라우팅 네트워크로 구성된다. 라우팅은 전체 발화 수준에서 평균 풀링된 표현을 입력으로 하여 softmax 확률을 산출하고, top‑K 전문가만 활성화한다는 효율적인 설계다.
학습 초기에는 억양 라벨 a_i를 이용해 라우팅 로그잇 L_i,j에 억양 편향(α·1
댓글 및 학술 토론
Loading comments...
의견 남기기