실시간 음성 인식을 위한 온라인 LAS 모델: LC‑AMoChA 접근법

본 논문은 기존 LAS 모델의 양방향 인코더와 전역 소프트 어텐션(GSA)이 실시간 인식에 방해가 된다는 점을 해결하고자, 지연 제어 양방향 LSTM(LC‑BLSTM)와 적응형 단조 청크‑와이즈 어텐션(AMoChA)을 결합한 온라인 LAS 모델(LC‑AMoChA)을 제안한다. 내부 만다린 데이터셋에서 오프라인 BLSTM‑GSA 대비 CER 3.5%만 감소한 성능을 달성하였다.

저자: Ruchao Fan, Pan Zhou, Wei Chen

본 논문은 End‑to‑End 음성 인식 모델인 Listen, Attend and Spell(LAS)의 실시간 적용을 목표로, 기존 LAS가 갖는 두 가지 주요 제약—양방향 인코더와 Global Soft Attention(GSA)—을 동시에 해결하는 방법을 제시한다. 1. **배경 및 문제 정의** LAS는 BLSTM 기반 양방향 인코더와 전체 인코더 출력을 대상으로 하는 GSA를 사용해 높은 인식 정확도를 달성했지만, 이 구조는 전체 음성 신호를 모두 수신해야만 디코딩을 시작할 수 있어 실시간 스트리밍에 부적합하다. 특히, 양방향 인코더는 미래 프레임을 무제한으로 참조하고, GSA는 모든 프레임에 대한 어텐션 가중치를 계산하므로 지연이 크게 발생한다. 2. **Latency‑Controlled BLSTM(LC‑BLSTM)** 저자들은 기존 연구

실시간 음성 인식을 위한 온라인 LAS 모델: LC‑AMoChA 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기