MCC‑PHAT 기반 음원 위치추정, LOCATA 챌린지에서 MUSIC을 제치다

본 보고서는 LOCATA Challenge의 정적·동적 단일 화자 과제에 대해 최신 MCC‑PHAT 알고리즘을 적용하고, 전통적인 MUSIC 방법과 비교 평가한다. OSPA(또는 RMS) 지표를 이용한 정량적 결과에서 MCC‑PHAT가 대부분의 마이크 배열·시나리오에서 더 정확하고 안정적인 DOA 추정 성능을 보이며, 특히 benchmark2 배열에서 두 과제 모두 우수한 결과를 얻었다. 다만 계산량이 MUSIC보다 크게 증가한다는 트레이드오프…

저자: Shoufeng Lin

이 보고서는 2018년 LOCATA Challenge에서 제공된 음성 데이터와 다양한 정적 마이크 배열을 이용해, 최신 MCC‑PHAT(Multi‑Channel Cross‑Correlation – Phase Transform) 알고리즘의 성능을 평가하고, 기존의 대표적인 MUSIC(Multiple Signal Classification) 방법과 비교한다. 연구는 두 가지 과제, 즉 정적 화자(Task 1)와 이동 화자(Task 3)를 대상으로 진행되었다. **1. 연구 배경 및 목적** 음향 소스 로컬라이제이션은 화자 추적, 빔포밍 기반 음성 분리, 스마트 카메라 제어 등 다양한 응용 분야에서 핵심 기술이다. 기존 MUSIC은 공분산 행렬의 고유값 분해를 통해 신호·노이즈 서브스페이스를 구분하고, steering vector와의 정규화된 내적을 이용해 스펙트럼을 만든다. 그러나 MUSIC은 높은 반향 환경이나 마이크 배열이 비정형일 때 성능이 저하되는 경향이 있다. 최근 제안된 MCC‑PHAT는 다채널 교차상관에 위상 변환(Phase Transform, PHAT) 필터를 적용해 위상 정보를 강조하고, 모든 유효 마이크 쌍의 결과를 합산함으로써 반향에 강인한 TDOA 추정을 목표로 한다. **2. 이론적 배경** - **신호 모델**: far‑field 평면파 가정 하에 각 마이크 i의 관측은 \(x_i(t)=y(t-\tau_i)+n_i(t)\) 로 표현되며, STFT 도메인에서는 복소수 형태로 변환된다. - **공분산 행렬**: \(R = E

MCC‑PHAT 기반 음원 위치추정, LOCATA 챌린지에서 MUSIC을 제치다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기