비지도 주의 기반 시퀀스‑투‑시퀀스 음성인식 시스템의 최신 성능과 비원어민 영어 적용
초록
본 논문은 Listen, Attend and Spell(LAS) 구조를 기반으로 한 주의 메커니즘 시퀀스‑투‑시퀀스 모델을 설계·학습하여, LibriSpeech 테스트‑클린에서 3.43%라는 새로운 최고 정확도를 달성하고, 비원어민 영어(읽기·자발적 발화)에서도 최신 Kaldi 레시피와 경쟁할 만한 성능을 보였음을 보고한다.
상세 분석
본 연구는 LAS(LAS: Listen, Attend and Spell) 모델을 최신 딥러닝 트레이닝 기법과 결합해 두 가지 주요 과업에 적용하였다. 인코더는 피라미드형 블록 구조의 양방향 LSTM(BLSTM) 6층을 사용해 시간 해상도를 1/8로 축소함으로써 연산 효율성을 높이고, 각 층마다 256개의 은닉 유닛을 배치해 풍부한 음향 특징을 추출한다. 어텐션 모듈은 위치 기반 어텐션(Location‑Aware Attention)을 채택해 이전 디코더 단계의 어텐션 가중치를 고려함으로써 장기 의존성을 완화하고, 디코더는 1‑step 토큰 예측을 수행하는 2‑층 LSTM으로 구성한다.
학습 단계에서는 대규모 LibriSpeech(960시간)와 추가적인 비원어민 데이터에 대해 다중 데이터 증강을 적용하였다. 구체적으로 속도 변형(0.9~1.1배), SpecAugment(시간·주파수 마스킹), 그리고 음성 잡음 혼합을 병행해 모델의 일반화 능력을 크게 향상시켰다. 또한, CTC 손실을 보조 목표로 결합한 멀티태스크 학습을 통해 초기 수렴 속도를 가속화하고, 레이블 스무딩을 적용해 과적합을 방지하였다.
디코딩 시에는 빔 서치(beam width=20)를 사용하고, 외부 언어 모델(LM)인 4‑gram 및 Transformer‑based LM을 재점수화(rescoring) 단계에 도입해 최종 WER를 3.43%까지 낮추었다. 비원어민 영어 실험에서는 도메인 적응을 위해 소량의 비원어민 발화(읽기·자발적)만을 추가 학습시켰으며, 기존 Kaldi 기반 시스템 대비 0.2~0.4%p 낮은 WER를 기록했다.
주요 인사이트는 다음과 같다. 첫째, 피라미드형 인코더와 위치 기반 어텐션은 시퀀스‑투‑시퀀스 구조가 긴 입력 시계열을 효율적으로 처리하도록 돕는다. 둘째, SpecAugment와 속도 변형을 포함한 복합 데이터 증강이 비원어민 발화와 같이 발음 변이가 큰 데이터에서도 강인한 성능을 유지하게 만든다. 셋째, CTC 보조 손실과 LM 재점수화는 각각 학습 안정성과 최종 인식 정확도에 크게 기여한다. 마지막으로, 소량의 도메인 특화 데이터만으로도 기존 Kaldi 파이프라인을 능가하는 결과를 얻을 수 있음을 보여, 시퀀스‑투‑시퀀스 모델의 실용성을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기