다중 음원 위치 추정 스티어드 응답 전력 밀도와 계층적 그리드 정밀화

본 논문은 구형 마이크 어레이를 이용한 다중 음원 방향 추정(DOA)에서 기존 스티어드 응답 전력(SRP)의 높은 연산량을 극복하기 위해, 스티어드 응답 전력 밀도(SRPD)와 신호 적응형 계층적 그리드 정밀화(HiGRID) 기법을 제안한다. SRPD를 확률적 밀도로 해석하고, 정보 이득 기반의 영역 선택을 통해 탐색 후보를 크게 줄이며, 동시에 음원의 수를 자동으로 추정한다. 시뮬레이션 및 실제 실험에서 높은 반향과 백색 잡음에 강인함을 보이…

저자: Mert Burkay Coteli, Orhun Olgun, Huseyin Hacihabiboglu

다중 음원 위치 추정 스티어드 응답 전력 밀도와 계층적 그리드 정밀화
본 논문은 구형 마이크 어레이를 이용한 다중 음원 방향 추정(DOA) 문제에 대해, 기존 스티어드 응답 전력(SRP) 방식이 모든 방위각을 전부 스캔해야 하는 높은 연산 비용과 반향·노이즈에 대한 취약성을 극복하고자 한다. 이를 위해 저자는 SRP를 면적 평균 형태인 스티어드 응답 전력 밀도(SRPD)로 일반화하고, SRPD를 “특정 구면 영역에 음원이 존재할 확률”로 해석한다. SRPD는 구면 조화(SH) 계수와 영역별 교차 공간 밀도 행렬 Q_i의 Hadamard 곱으로 표현되며, 행렬의 고유값·고유벡터를 이용해 효율적으로 계산된다. 이 수식적 전개는 주파수와 방향을 완전히 분리시켜, 사전 계산 가능한 Q_i를 활용함으로써 실시간 처리 비용을 크게 낮춘다. SRPD 기반 탐색을 효율화하기 위해 제안된 것이 신호 적응형 계층적 그리드 정밀화(HiGRID)이다. HiGRID은 초기 저해상도 구면 격자를 사용해 전체 SRPD 맵을 추정하고, 각 셀의 엔트로피 감소량(정보 이득)을 평가한다. 정보 이득이 큰 셀만을 선택해 다음 단계에서 더 세밀한 격자로 재분할하고, 이 과정을 반복한다. 결과적으로 전역 최대값을 포함할 가능성이 높은 영역만을 집중적으로 탐색하게 되며, 전체 탐색 포인트 수는 전통적인 SRP 대비 1~2% 수준으로 감소한다. 음원 수 추정은 SRPD 맵에서 지역적 피크를 클러스터링하고, 각 클러스터의 통계적 유의성을 검증함으로써 자동으로 수행된다. 이 방법은 코히런트(상관된) 음원이나 강한 반향이 존재하는 경우에도 피크가 분리될 수 있도록 설계되었으며, SH 차수 N과 영역 크기 A_i 사이의 레일리 조건(π/N) 이하의 분해능 제한을 보완한다. 실험에서는 3차~5차 SH 차수를 사용한 32채널 구형 어레이와 다양한 방실 반향시간(RT60=0.3~0.9 s), 신호대잡음비(SNR)=-5~20 dB 조건을 시뮬레이션하였다. 제안 방법은 기존 EB‑MUSIC, SSPIV, PIV 등과 비교했을 때 평균 DOA 오차가 2~3° 이하로 감소했고, 연산 시간은 CPU 기준 0.02 s(실시간) 수준으로 크게 앞섰다. 실제 녹음 실험에서는 4개의 스피커와 강한 반향을 가진 회의실에서 90% 이상의 정확도로 음원 수와 위치를 동시에 추정하였다. 논문의 주요 기여는 다음과 같다. 첫째, SRPD라는 새로운 측정값을 도입해 SRP의 연산량을 면적 평균 형태로 축소하고, 이를 확률 밀도로 해석함으로써 베이지안 추정과의 연계 가능성을 제공한다. 둘째, 정보 이득 기반의 HiGRID 탐색 전략을 통해 전체 탐색 포인트를 극단적으로 감소시키면서도 전역 최대값을 놓치지 않는다. 셋째, 제안 방법은 코히런트 음원, 반향, 백색 잡음 등 현실적인 악조건에서도 강인한 성능을 보이며, 음원 수를 자동으로 추정한다. 마지막으로, 수식 전개와 알고리즘 구현이 명확히 제시되어, 로봇 청취, 증강 현실 오디오, 회의 시스템 등 실시간 음향 인식 응용에 바로 적용할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기