공간 확산 특성을 활용한 DNN 기반 음성 인식

본 논문은 두 개의 무지향 마이크로부터 실시간으로 추정되는 공간 확산도(diffuseness) 정보를 추가 특징으로 사용해, 잡음·잔향이 심한 환경에서도 DNN 기반 자동음성인식(ASR)의 인식률을 향상시키는 방법을 제안한다. 확산도는 복소 코히어런스 추정에 기반해 DOA(도착 방향) 없이 계산되며, 멜 스케일 필터링을 거쳐 기존 로그멜스펙트럼(log‑melspec) 특징과 결합한다. REVERB 챌린지 데이터셋 실험 결과, 확산도 특징을 포함…

저자: Andreas Schwarz, Christian Huemmer, Rol

본 논문은 잡음과 잔향이 심한 실내 환경에서 다중 마이크를 이용한 자동음성인식(ASR)의 성능을 향상시키기 위해, ‘공간 확산도(diffuseness)’라는 새로운 특징을 제안한다. 기존의 GMM‑HMM 기반 시스템은 다양한 전처리(빔포밍, 다중채널 선형 예측, 차단 행렬 등)를 통해 공간 정보를 활용했지만, 이러한 전처리 단계는 별도의 파라미터 추정과 복잡한 구현을 요구한다. 최근 DNN 기반 음성 인식이 등장하면서, 특징 변환 단계보다 모델 자체가 데이터를 직접 학습하도록 하는 흐름이 강해졌지만, 다중 마이크 배열의 위상 정보는 아직 별도 전처리로 남아 있었다. 저자는 두 개의 무지향 마이크 신호 x₁(t), x₂(t)를 STFT로 변환한 뒤, 복소 코히어런스 Γₓ(k,f)를 추정한다. 복소 코히어런스는 신호와 잡음의 파워 스펙트럼을 이용해 재귀적으로 평균화(λ=0.68)함으로써 실시간으로 계산된다. 여기서 신호는 완전 코히어런트( |Γ_s|=1 )라는 가정하에, 잡음은 구형 등방성(diffuse) 사운드 필드로 모델링한다. 이러한 가정 하에, 복소 코히어런스와 알려진 잡음 코히어런스(마이크 간 거리 d에 의존)만을 이용해 ‘Coherent‑to‑Diffuse Ratio(CDR)’를 블라인드 방식으로 풀어낼 수 있다. CDR은 잡음 대비 신호의 상대적 강도를 나타내며, 이를 확산도 D(k,f) =

공간 확산 특성을 활용한 DNN 기반 음성 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기