자동 문맥 창 구성으로 원거리 음성 인식 향상

본 논문은 원거리 음성 인식에서 reverberation(잔향)으로 인한 프레임 간 중복성을 감소시키기 위해 비대칭(context) 창을 자동으로 설계하는 방법을 제안한다. gradient 분석을 이용해 초기 학습 단계에서 각 프레임의 중요도를 평가하고, 과거 프레임을 더 많이 포함하는 비대칭 창을 선택한다. 다양한 환경·특징·마이크 설정에서 실험한 결과, 제안 방법이 기존 대칭 창보다 인식 정확도를 향상시키고 학습 효율을 높임을 확인하였다.

저자: Mirco Ravanelli, Maurizio Omologo

본 논문은 원거리 음성 인식(Distant Speech Recognition, DSR) 분야에서 딥러닝 기반 모델이 큰 시간 문맥을 활용함에 따라 발생하는 문제점을 해결하고자 한다. 기존에는 대칭 문맥 창(Symmetric Context Window, SCW)이 표준으로 사용되었지만, reverberation(잔향)으로 인해 미래 프레임이 과거 프레임보다 중복성이 높아 학습 효율이 저하된다. 이를 극복하기 위해 저자들은 비대칭 문맥 창(Asymmetric Context Window, ACW)을 도입하고, 그 최적 구성을 자동으로 찾는 알고리즘을 제안한다. 첫 번째 섹션에서는 DSR 시스템의 기본 구조와 reverberation이 신호에 미치는 영향을 수식적으로 설명한다. 원거리 음성 y

자동 문맥 창 구성으로 원거리 음성 인식 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기