동적 화자 추적을 위한 자동회귀 기반 베이지안 가이드 딥 공간 선택 필터

본 논문은 초기 화자 방향만 알려진 상황에서, 실시간으로 움직이는 화자를 추적하고 딥 공간 선택 필터(SSF)를 자동으로 스티어링하기 위한 베이지안 추적 알고리즘을 제안한다. Kalman 필터와 Particle 필터에 향상된 음성 신호를 피드백으로 활용하는 자동회귀(AR) 기법을 도입해 추적 정확도를 크게 높였으며, 연산량 증가는 무시할 수준이다. 또한 사회적 힘 모델을 기반으로 한 새로운 합성 데이터셋을 공개하여 실험의 현실성을 강화하였다. …

저자: Jakob Kienegger, Timo Gerkmann

동적 화자 추적을 위한 자동회귀 기반 베이지안 가이드 딥 공간 선택 필터
본 논문은 초기 화자 방향(DoA)만 알려진 상황에서, 움직이는 화자를 실시간으로 추적하고 딥 공간 선택 필터(SSF)를 자동으로 스티어링하는 방법을 제시한다. 기존 연구에서는 정적인 화자에 대해 고성능 SSF가 실시간으로 구현 가능했지만, 화자가 움직이거나 다중 화자가 교차하는 경우에는 지속적인 DoA 정보가 필요했다. 이를 해결하기 위해 저자들은 베이지안 추적 알고리즘을 활용하고, 추적 과정에 향상된 음성 신호를 피드백으로 넣는 자동회귀(AR) 기법을 도입했다. 먼저 문제 정의와 기본 모델을 소개한다. 마이크 어레이의 다채널 관측 Yₜₖ는 목표 화자 신호와 잡음·리버버레이션의 합으로 표현되며, 원거리 가정 하에 스티어링 벡터 dₖ(θₜ)만이 DoA에 의존한다. 목표는 참 DoA θₜ를 추정해 SSF를 지속적으로 스티어링함으로써, 기준 마이크에 대한 무반향 목표 음성 Sₜₖ를 복원하는 것이다. 강한 가이드(전체 DoA 제공)와 약한 가이드(초기 DoA만 제공) 두 시나리오를 구분한다. 약한 가이드에서는 목표 화자 추적(TST) 모듈이 필요하며, 베이지안 필터링을 통해 p(θₜ|Y₁:ₜ,θ₀) 를 추정한다. 저자는 두 가지 베이지안 필터, 즉 Kalman Filter(KF)와 Particle Filter(PF)를 기반으로 설계한다. KF는 선형‑가우시안 상태공간 모델을 사용하고, 비선형 관측을 완화하기 위해 충분 통계량 Φₜ(좁은 대역 DoA 추정값의 가중 평균)를 도입한다. Φₜ는 원형 가우시안 분포를 가정하고, 모드 매칭을 통해 일반 가우시안으로 변환한다. PF는 비선형·비가우시안 상황을 샘플링 기반으로 처리하며, 복소 Watson 분포를 이용해 STFT 벡터 Yₜₖ를 모델링한다. 입자들의 가중치는 관측 가능도 p(Yₜ|θₜ) 로 업데이트되고, 효과적인 입자 수를 유지하기 위해 적응형 재샘플링을 적용한다. 핵심 기여는 자동회귀(AR) 피드백을 베이지안 필터에 통합한 점이다. 프레임 t‑1에서 얻은 향상된 음성 ˆSₜ₋₁을 두 가지 방식으로 활용한다. (1) 기존 관측 Yₜ에 ˆSₜ₋₁을 추가하여 관측 모델을 확장한다. 즉, p(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기