중국어 음성인식을 위한 RNN‑Transducer 간소화 학습 전략

본 연구는 중국어 대규모 연속 음성 인식(LVCSR) 작업에 RNN‑Transducer(RNN‑T)를 적용하면서, 기존에 필요하다고 알려진 복잡한 사전학습 절차를 간소화하고도 성능을 유지하거나 향상시킬 수 있는 여러 학습 전략을 제시한다. 먼저, 데이터는 약 1,000시간 분량의 모바일 음성 입력 데이터를 사용했으며, 40차원 로그 멜 필터뱅크를 25 ms 프레임, 10 ms 스트라이드로 추출하고 CMVN을 적용하였다. 테스트 셋은 다양한 청정·노이즈 환경에서 8,000개 이상의 발화(총 17.4 시간)로 구성하였다. 모델링 단위는 26개의 영문자, 6,784개의 빈도 높은 한자, UNK, blank 토큰을 포함한 문자 집합이다. 베이스라인으로는 4층 BLSTM(256셀) CE 모델, monophone CTC, character CTC, 그리고 전통적인 사전학습 절차를 따르는 RNN‑T 모델을 구축하였다. CE 모델은 18.87% CER, monophone CTC는 20.93%, character CTC는 19.06%를 기록했으며, 사전학습된 RNN‑T는 초기 22.39%에서 단계별 초기화(CTC, LM, HCTC)와 빔 서치 적용을 통해 최종 18.78%까지 개선되었다. 그러나 이러한 성능 향상은 여러 단계의 사전학습과 복잡한 파이프라인을 필요로 했다. 논문은 이를 대체할 수 있는 네 가지 핵심 기법을 제안한다. ① **샤프닝 학습률 감소**: 검증 손실이 상승하기 시작하는 epoch에서 학습률을 10배 급감시키고, 이후 매 epoch마다 절반씩 감소시켜 과적합을 방지하고 빠른 수렴을 달성했다. 이 전략만 적용해 CER를 19.98%에서 19.69%로 낮출 수 있었다. ② **CNN 기반 인코더 초기화**: 인코더 앞에 6×6 커널을 갖는 2개의 CNN 레이어를 삽입함으로써, 사전학습 없이도 풍부한 특징을 추출했다. 무작위 초기화 모델에 CNN을 추가하면 CER 17.65%를 기록해 HCTC 초기화 모델보다 1% 절대 개선되었다. ③ **커리큘럼 학습**: 문장 길이에 따라 데이터를 정렬해 학습 난이도를 점진적으로 높였지만, CNN과 병행 시 약간의 성능 저하가 관찰돼 단독 사용이 더 효율적이었다. ④ **서브샘플링 최적화**: RNN‑T 출력 텐서는 4차원으로 메모리 소모가 크다. 이를 해결하기 위해 CNN 레이어 뒤 max‑pooling(크기 2)과 피라미드 BLSTM(pBLSTM) 방식을 조합해 총 서브샘플링 비율을 4~6 사이로 설정했다. 특히 BLSTM 단계에서 피라미드 샘플링을 적용하면 정보 손실을 최소화하면서 배치 크기를 10으로 늘릴 수 있었고, 학습 속도가 크게 향상되었다. 이러한 최적화들을 모두 적용한 최종 모델은 16.9% CER를 달성했으며, 동일 텍스트 코퍼스로 훈련된 강력한 BLSTM‑CE 시스템 대비 2% 절대 향상된 결과를 보였다. 연구는 RNN‑T의 학습 복잡성을 크게 낮추면서도 실시간 스트리밍 ASR에 적합한 성능을 유지할 수 있음을 입증한다.

중국어 음성인식을 위한 RNN‑Transducer 간소화 학습 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기