문맥을 활용한 엔드투엔드 음성인식 혁신

본 논문은 사용자의 발화 상황에 따라 달라지는 단어 n‑gram 문맥 정보를 직접 학습에 통합한 새로운 End‑to‑End ASR 모델인 Contextual LAS (CLAS)를 제안한다. CLAS는 기존 LAS 구조에 별도의 bias‑encoder와 문맥‑attention을 추가해, 훈련 시와 추론 시 제공되는 수백·수천 개의 문맥 구절을 공동 최적화한다. 실험 결과, 전통적인 온‑더‑플라이 rescoring 방식보다 최대 68 % 상대 WE…

저자: Golan Pundak, Tara N. Sainath, Rohit Prabhavalkar

본 논문은 사용자의 발화 상황에 따라 달라지는 문맥 정보를 효과적으로 활용할 수 있는 새로운 End‑to‑End 자동음성인식(ASR) 모델, Contextual Listen‑Attend‑Spell(CLAS)를 제안한다. 기존 LAS 모델은 음성 신호만을 입력으로 받아 직접 grapheme 시퀀스를 출력하지만, 실제 서비스 환경에서는 사용자의 위치, 대화 상태, 연락처·플레이리스트 등 다양한 외부 문맥이 인식 정확도에 큰 영향을 미친다. 전통적인 ASR에서는 이러한 문맥을 온‑더‑플라이 rescoring이나 WFST 기반의 bias LM으로 별도 적용했으며, 최근에는 shallow‑fusion이나 cold‑fusion 형태로 seq2seq 모델에 통합하려는 시도가 있었다. 그러나 이러한 방법은 별도 LM을 훈련·조정해야 하고, 문맥 가중치 λ를 튜닝하는 복잡성을 안고 있다. CLAS는 이러한 한계를 극복하기 위해 LAS 구조에 bias‑encoder와 문맥‑attention을 추가한다. 구체적으로, 입력 음성 x는 기존 10층 단방향 LSTM 인코더를 통해 고차원 특징 hx 로 변환된다. 동시에, 사용자가 제공한 문맥 구절 집합 z={z1,…,zN}는 각각 grapheme 단위 LSTM(512 노드)으로 인코딩되어 고정 차원 임베딩 hz_i 를 만든다. 여기에는 “bias‑none”을 의미하는 hznb도 포함되어, 모델이 문맥이 전혀 매치되지 않을 때도 정상적으로 동작하도록 한다. 디코더는 매 시간 단계 t마다 두 개의 attention을 수행한다. 첫 번째는 표준 audio‑attention으로 hx와 현재 디코더 상태 d_t 를 이용해 c_x_t 를 얻고, 두 번째는 bias‑attention으로 hz와 d_t 를 이용해 c_z_t 를 산출한다. 두 컨텍스트 벡터는 concat(

문맥을 활용한 엔드투엔드 음성인식 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기