eess.AS 2018-02-02 0

주의 기반 모델을 활용한 텍스트 종속 화자 검증 성능 향상

본 논문은 텍스트 종속 화자 검증 시스템에 어텐션 메커니즘을 도입하여, 프레임 수준의 잡음과 침묵을 억제하고 중요한 발음 구간에 가중치를 집중시킴으로써 기존 3‑layer LSTM 기반 모델 대비 14 % 낮은 EER을 달성한 연구이다. 다양한 어텐션 스코어링 함수, 레이어 변형, 가중치 풀링 방식을 실험하고, 공유 파라미터 비선형 어텐션과 분할 레이어 구조, 슬라이딩 윈도우 맥스풀링 조합이 최적임을 확인하였다.

저자: F A Rezaur Rahman Chowdhury, Quan Wang, Ignacio Lopez Moreno

본 논문은 구글 홈의 “OK Google”·“Hey Google”와 같은 고정 구문을 이용한 텍스트 종속 화자 검증(TD‑SV) 시스템에 어텐션 메커니즘을 도입해 성능을 향상시키는 연구이다. 기존 연구에서는 i‑vector + PLDA가 주류였으며, 최근에는 엔드‑투‑엔드(end‑to‑end) 구조가 주목받고 있다. 특히 Heigold 등

주의 기반 모델을 활용한 텍스트 종속 화자 검증 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기