대규모 대화형 핀란드어·에스토니아어 어휘를 활용한 자동 음성 인식 혁신
초록
본 논문은 핀란드어와 에스토니아어와 같이 교착어의 특성을 고려해 수백만 단어 규모의 어휘를 효과적으로 다루는 방법을 제시한다. 단어 클래스를 이용한 n‑gram 모델, 통계적 형태소 기반 서브워드 모델, 그리고 다양한 소프트맥스 근사 기법을 적용한 RNN 언어 모델을 비교·평가하였다. 실험 결과, 서브워드 기반 RNN 모델이 가장 낮은 인식 오류율을 기록했으며, 특히 2백만어 규모의 전체 어휘를 사용한 경우에도 새로운 최고 성능(핀란드어 27.1 % WER, 에스토니아어 21.9 % WER)을 달성하였다.
상세 분석
이 연구는 교착어인 핀란드어와 에스토니아어의 어휘 폭발 문제를 해결하기 위해 세 가지 주요 접근법을 체계적으로 검증한다. 첫 번째는 전통적인 n‑gram 언어 모델에 단어 클래스를 도입하는 방법이다. 클래스는 단어를 의미론적·통계적 유사성에 따라 그룹화하며, Brown 클러스터링, 교환 알고리즘, 그리고 분산 표현 기반 k‑means 클러스터링을 비교한다. 특히 교환 알고리즘은 초기화 전략과 반복 횟수에 따라 수렴 속도가 크게 달라지지만, 실험에서는 Brown 방식보다 빠르게 최적에 근접한다는 점이 확인되었다. 두 번째 접근법은 Morfessor를 이용한 통계적 형태소 분석으로, 단어를 서브워드(형태소) 단위로 분할한다. 이때 서브워드 vocabulary의 크기는 언어마다 최적값이 다르며, 핀란드어는 약 30 k, 에스토니아어는 50 k 정도가 가장 좋은 성능을 보였다. 세 번째는 대규모 신경망 언어 모델(NNLM)에서 어휘 규모가 학습·추론 비용에 미치는 영향을 완화하기 위한 소프트맥스 근사 기법이다. 계층적 소프트맥스, 노이즈 대비 추정(NCE), BlackOut, 그리고 클래스 기반 소프트맥스를 구현해 비교했으며, 800 k 단어 수준에서는 계층적 소프트맥스가 가장 낮은 퍼플렉시티를 제공했다. 그러나 2 M 단어 규모에서는 클래스 기반 소프트맥스와 서브워드 모델이 학습 효율성과 인식 정확도 모두에서 우위를 점했다. RNN 구조는 LSTM 레이어와 하이웨이 네트워크를 결합했으며, GPU 병렬화를 통해 15일 이내에 수렴하도록 설계되었다. 실험에서는 TDNN 기반 음향 모델과 결합했을 때, 서브워드 기반 RNN LM이 단어 기반 LM 대비 1.5 %~2 % 절감된 WER을 달성했다. 특히, 전체 어휘를 포함한 단어 n‑gram 모델과 비교했을 때 서브워드 n‑gram 모델은 성능 차이가 미미했지만, RNN LM에서는 장기 컨텍스트 활용 능력 덕분에 서브워드가 크게 앞섰다. 마지막으로, 다중 코퍼스 학습 시 가중치 샘플링과 새로운 업데이트 가중치 기법을 도입해 데이터 불균형을 보정했으며, 이는 전체 퍼플렉시티와 WER 감소에 기여했다. 전체적으로 이 논문은 어휘 규모가 큰 교착어 음성 인식에서 클래스와 서브워드 기반 접근법이 NNLM과 결합될 때 최적의 성능을 이끌어낼 수 있음을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기