미래 컨텍스트를 활용한 경량 mGRU 기반 음성 모델

본 논문은 최소 게이트 구조를 가진 GRU(mGRU)에 입력 프로젝션 층을 삽입하고, 미래 프레임 정보를 직접 활용할 수 있는 두 가지 컨텍스트 모듈(Temporal Encoding, Temporal Convolution)을 설계한다. 이를 통해 모델 파라미터를 절반 수준으로 줄이면서도 170 ms 이하의 낮은 지연시간을 유지하고, Switchboard와 대규모 내부 Mandarin 데이터셋에서 LSTM·mGRU·TDNN‑LSTM 대비 13 %…

저자: Jie Li, Xiaorui Wang, Yuanyuan Zhao

본 논문은 음성 인식에서 미래 컨텍스트를 효과적으로 활용하면서도 모델 지연시간과 연산 비용을 최소화하는 RNN 기반 음향 모델을 설계한다. 기존 연구에서는 FFNN에 미래 프레임을 스플라이스하거나, TDNN‑LSTM처럼 별도의 TDNN 레이어를 삽입해 미래 정보를 이용했으며, 양방향 RNN이나 청크 기반 BLSTM은 높은 지연시간(수백 ms) 때문에 실시간 적용이 어려웠다. 이러한 배경에서 저자는 최소 게이트 구조를 가진 GRU(mGRU)를 기반으로, 입력 프로젝션 레이어를 추가한 mGRU‑IP(mGRUIP)를 제안한다. mGRUIP는 입력 x_t와 이전 은닉 상태 h_{t‑1}을 연결(concatenate)한 뒤, 저차원 프로젝션 행렬 W_v를 통해 v_t(=W_v

미래 컨텍스트를 활용한 경량 mGRU 기반 음성 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기