잠재 시퀀스 분해로 향상된 음성 인식

LSD(Latent Sequence Decompositions) 프레임워크는 출력 토큰을 입력과 출력 모두에 의존하는 가변 길이 토큰 집합으로 동적으로 분해한다. 학습 시 유효한 확장 후보를 샘플링하고 ε‑greedy 탐색으로 후방 분포를 근사한다. WSJ 음성 인식 실험에서 문자 기반 베이스라인(14.8% WER) 대비 12.9% WER, 컨볼루션 인코더와 결합 시 9.6% WER를 달성하였다.

저자: William Chan, Yu Zhang, Quoc Le

본 논문은 시퀀스‑투‑시퀀스(seq2seq) 모델이 출력 토큰을 고정된 방식으로 분해하는 기존 접근법의 한계를 극복하고자, “Latent Sequence Decompositions”(LSD)라는 새로운 프레임워크를 제안한다. 전통적인 모델은 문자, 단어, 혹은 사전에 정의된 word‑piece와 같이 미리 정해진 토큰 집합에 의존한다. 이러한 고정 분해는 입력 데이터(예: 음성 신호)의 특성을 반영하지 못해, 토큰 선택이 비효율적이거나 OOV(Out‑of‑Vocabulary) 문제를 야기한다. LSD는 출력 시퀀스 y와 입력 시퀀스 x 사이에 잠재 변수 z를 도입한다. z는 y를 가변 길이 토큰(예: “c”, “ca”, “cat”)의 연속으로 분해하는 구성을 의미한다. 토큰 집합 Z는 문자 n‑gram을 기반으로 구성되며, n은 2~5 사이의 값으로 설정하고, 빈도 상위 256~1024개의 토큰을 사전으로 채택한다. 이때 Z는 단순히 문자 집합 C의 n‑카르테시안이 아니라 실제 데이터에서 의미 있는 조합만을 포함한다. 모델은 p(z|x;θ) 를 attention‑based encoder‑decoder 구조로 학습한다. 입력 x는 3‑layer Bidirectional LSTM(BLSTM)으로 인코딩되어 고차원 특징 h를 만든다. 디코더는 LSTM 기반 트랜스듀서와 Bahdanau 어텐션을 사용해 현재까지 생성된 토큰 z₍

잠재 시퀀스 분해로 향상된 음성 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기