프라미싱 정확한 프리픽스 부스팅을 활용한 차세대 음성인식 모델

본 논문은 어텐션 기반 시퀀스‑투‑시퀀스(Seq2Seq) 자동음성인식(ASR) 모델에 대해, 학습 단계에서 빔 서치 중 생성되는 올바른 프리픽스를 강조해 점수를 높이는 “프라미싱 정확한 프리픽스 부스팅(PAPB)” 기법을 제안한다. PAPB는 부분 시퀀스 수준에서 소프트맥스 마진 손실을 적용해 부분 정답의 점수를 상승시키고, 전체 시퀀스와 문자 오류율(CER) 최소화를 동시에 달성한다. WSJ 데이터셋에서 RNNLM을 사용했을 때 10.8 % …

저자: Murali Karthick Baskar, Lukav{s} Burget, Shinji Watanabe

본 논문은 어텐션 기반 시퀀스‑투‑시퀀스(Seq2Seq) 자동음성인식(ASR) 모델의 학습‑테스트 불일치를 해결하기 위해 “프라미싱 정확한 프리픽스 부스팅(PAPB)”이라는 새로운 차별적 학습 기법을 제안한다. 전통적인 Seq2Seq 모델은 교사 강제(teacher‑forcing) 방식으로 학습하면서, 테스트 시에는 자체 예측을 피드백으로 사용한다는 점에서 ‘노출 편향(exposure bias)’ 문제가 발생한다. 또한, 학습 손실인 교차 엔트로피(CE)와 평가 지표인 문자 오류율(CER)·단어 오류율(WER) 사이의 ‘손실 기준 불일치(criterion mismatch)’도 존재한다. 기존 연구는 각각 노출 편향을 완화하기 위해 스케줄드 샘플링, SEARN 등을, 손실 기준 불일치를 해결하기 위해 최소 베이즈 위험(MBR)이나 소프트맥스 마진(SM) 손실을 도입했지만, 두 문제를 동시에 다루지는 못했다. PAPB는 이러한 한계를 극복하고자, 빔 서치 과정에서 생성되는 N개의 가장 유망한 프리픽스(부분 시퀀스)를 모두 활용한다. 매 디코딩 단계 l마다, 실제 정답 프리픽스 \(y^{*}_{1:l}\)와 빔 내 각 후보 프리픽스 \(y_{1:l}\)의 점수 차이를 소프트맥스 마진 형태로 최소화한다. 이때 점수는 프리픽스까지의 로그‑소프트맥스 출력 합 \(s(y_{1:l},X)\)이며, 마진은 해당 프리픽스 간의 CER \(B = \text{cer}(y^{*}_{1:l}, y_{1:l})\)로 정의한다. 손실 함수는 \

프라미싱 정확한 프리픽스 부스팅을 활용한 차세대 음성인식 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기