다중 음원 추적을 위한 원미스 분포 기반 변분 EM 알고리즘
초록
본 논문은 원미스(von Mises) 분포를 이용해 원형 DOA(방향) 데이터를 모델링하고, 변분 기대-최대화(VEM) 프레임워크를 통해 다중 이동 음원의 실시간 추적을 구현한다. 관측‑소스 연관성을 확률적 이산 변수로 두고, 변분 근사를 적용해 필터링 분포의 조합 폭발을 억제한다. 또한, 새로운 음원을 부드러운 궤적을 가정한 ‘소스 탄생’ 절차로 자동 초기화·감지한다. 실험은 로카타(LOCATA) 데이터셋의 이동 마이크로폰 로봇 환경에서 수행돼, 기존 PHD‑필터와 Gaussian‑기반 트래커 대비 낮은 오류율과 평균 절대각오차(MAE)를 달성하였다.
상세 분석
이 논문은 다중 음원 추적 문제를 베이지안 필터링 관점에서 재정의한다. 기존 TDOA 기반 방법은 비선형 매핑으로 인해 입자 필터가 필요했으나, DOA를 직접 사용하면 원형 변수라는 특성을 활용할 수 있다. 저자들은 이를 위해 원미스 분포를 선택했는데, 이는 평균 방향과 농도(κ) 파라미터로 원형 데이터를 자연스럽게 표현한다. 관측 모델은 각 DOA가 실제 음원에 대응하면 원미스, 클러터(노이즈)에는 균등분포를 적용한다.
시간에 따라 관측‑소스 연관 변수 Zₜₘ이 급증하는 조합 문제를 해결하기 위해 변분 근사 p(sₜ, zₜ | y₁:ₜ) ≈ q(sₜ) q(zₜ) 를 도입한다. 이로써 E‑step은 두 단계(E‑S, E‑Z)로 분리되며, 각각은 닫힌 형태의 원미스 업데이트 식을 제공한다. 특히 E‑S 단계에서 q(sₜₙ)는 새로운 평균 μₜₙ과 농도 κₜₙ을 갖는 원미스로 유지되며, 이는 이전 단계의 예측 원미스와 현재 관측의 가중합으로 계산된다. 가중치는 변분 후방 확률 αₜₘₙ = q(Zₜₘ = n)이며, 이는 E‑Z 단계에서 베이즈 규칙에 따라 πₙ·βₜₘₙ 형태로 업데이트된다. βₜₘₙ은 관측의 신뢰도 ωₜₘ와 원미스 농도 κ_y 를 포함한 식으로, 관측‑소스 연관성을 정량화한다.
M‑step에서는 πₙ을 αₜₙₘ의 합으로 재추정하고, κ_y와 κ_d는 로그우도에 대한 그래디언트 하강으로 최적화한다. 이렇게 반복되는 VEM 알고리즘은 매 시간 단계마다 수렴하도록 설계돼, 조합 폭발을 방지하면서도 실시간 처리 가능성을 확보한다.
새로운 음원의 등장에 대비해 ‘소스 탄생’ 절차를 제안한다. 최근 L = 2 프레임 동안 클러터에 할당된 관측들을 모아 연속적인 DOA 시퀀스를 구성하고, 해당 시퀀스의 주변우도 τ_j를 원미스 적분식으로 계산한다. τ_j가 사전 정의된 임계값 τ₀를 초과하면 새로운 소스가 생성되고, 초기 q(sₜ)도 원미스로 초기화된다. 이 과정은 소스 수가 동적으로 변하는 상황에서도 트래커가 자동으로 적응하도록 만든다.
실험에서는 LOCATA Challenge의 Task 6 데이터를 사용했으며, 2개의 이동 스피커와 이동 마이크로폰 어레이가 포함된 실제 환경을 다루었다. DOA 추정은 기존의 온라인 로컬라이제이션 모듈(
댓글 및 학술 토론
Loading comments...
의견 남기기