광대역 음원 위치 추정을 위한 신호 서브스페이스 회전 기법
본 논문은 기존의 좁은 대역(Narrowband) ESPRIT 기반 DOA 추정 방식을 광대역 신호에 적용하기 위해, 각 주파수 대역에서 추출된 신호 서브스페이스의 고유벡터를 주파수 의존성을 보정하는 회전 연산으로 정규화한다. 회전된 서브스페이스를 가중합하여 광대역 공분산 행렬을 재구성하고, 이를 기존의 좁은 대역 ESPRIT에 그대로 적용함으로써 추가적인 사전 지식 없이도 높은 정확도와 낮은 연산 복잡도를 달성한다. 실험 결과는 제안 방법이 …
저자: Kainan Chen, Wenyu Jin, Bharadwaj Desikan
본 논문은 좁은 대역 다채널 음원 위치 추정 알고리즘을 광대역 신호에 적용하기 위한 새로운 방법론을 제시한다. 기존의 MUSIC, ESPRIT, GCC‑PHAT 등은 주파수마다 별도의 공분산 행렬을 추정하고, 그 결과를 히스토그램이나 클러스터링으로 종합하는 방식으로 광대역 신호를 처리한다. 이러한 접근법은 주파수 간 상관 정보를 활용하지 못하고, 계산량이 크게 증가한다는 한계가 있다. 특히, CSS(Coherent Signal Subspace)와 같은 포커싱 매트릭스 기반 방법은 주파수와 DOA에 의존하는 변환 행렬을 필요로 하며, 사전 DOA 추정 및 배열 기하 정보가 요구된다.
저자는 이러한 제약을 극복하기 위해 ‘신호 서브스페이스 회전’이라는 개념을 도입한다. 마이크로폰 배열을 P채널, Q개의 음원을 가정하고, 각 주파수 f_i에서 관측된 STFT 데이터 X_p(f_i)를 이용해 공분산 행렬 R(f_i)=A(f_i)R_s(f_i)A^H(f_i)+R_n(f_i)를 구성한다. 여기서 A(f_i)는 주파수 의존적인 스테어링 벡터 행렬이며, R_s, R_n은 각각 신호와 잡음의 파워 스펙트럼이다. R(f_i)를 고유값 분해하여 가장 큰 Q개의 고유벡터 U_s(f_i)를 신호 서브스페이스로 선택한다.
그 다음, (4)식에 기반해 고유벡터를 주파수 역수 거듭제곱 연산으로 회전한다. 즉, U′(f_i)=U(f_i)◦f_i^{-1} 로 정의한다. 이 회전은 각 주파수 대역에서 발생하는 IPD(Inter‑Channel Phase Difference)를 상쇄시켜, 모든 주파수에서 동일한 ‘광대역’ 서브스페이스를 얻는 효과를 만든다.
단일 음원 상황에서는 회전된 서브스페이스 U′_s(f_i)를 가중치 β(f_i)=trace(Λ_s(f_i)) 로 스칼라 가중합하여 U′_ss=∑_i β(f_i)U′_s(f_i) 를 만든다. 여기서 Λ_s(f_i)는 해당 주파수에서 신호 서브스페이스에 대응하는 고유값 대각 행렬이며, 가중치는 신호 파워가 큰 주파수에 더 큰 비중을 부여한다. 이렇게 얻어진 광대역 서브스페이스는 기존의 좁은 대역 ESPRIT에 그대로 입력될 수 있다.
다중 음원 경우에는 각 주파수별 서브스페이스의 순서가 일치하지 않을 수 있으므로, 회전된 고유벡터와 원래 고유값을 이용해 R′(f_i)=U′(f_i)Λ(f_i)U′(f_i)^{-1} 로 복원한다. 이후 동일한 가중합 과정을 적용해 R′′=∑_i β(f_i)R′(f_i) 를 만든다. 이 재구성된 광대역 공분산 행렬은 기존의 좁은 대역 ESPRIT에 그대로 적용 가능하며, 두 서브배열 간의 위상 이동 행렬 Φ를 추정해 고유값을 통해 DOA를 계산한다.
수치적인 안정성을 위해 저자는 단계적 누적 방식을 제안한다. 회전 단계가 주파수 차이가 클수록 양자화 오차가 커지는 문제를 완화하기 위해, 인접 주파수 간 회전을 반복적으로 적용하고, 각 단계마다 가중합된 공분산을 다음 단계의 입력으로 사용한다. 초기화는 가장 낮은 주파수 f_0에서 시작하며, 회전 단계는 f_{i+1}^{-1}·f_i 비율만큼 작게 수행한다. 이 과정은 공간 별칭(aliasing) 주파수 이하까지 반복한다.
실험에서는 5채널 ULA(채널 간 간격 Δd=0.044 m)를 사용해 저반향 실내(T60≈0.2 s)에서 세 가지 시나리오(단일 백색 잡음, 두 개의 백색 잡음, 두 개의 음성)를 테스트했다. 각 시나리오에서 SNR=10 dB와 0 dB의 백색 잡음 배경을 가정하고, 블록 길이 1024 샘플, 50 % 오버랩, 0–3800 Hz 대역(별칭 주파수 이하)으로 처리하였다.
결과는 다음과 같다. 단일 백색 잡음 상황에서 제안 방법은 MAE 1.41°, SDE 1.62° 로 가장 낮은 오류를 보였으며, CSS(3.81°, 5.58°)와 히스토그램‑ESPRIT(2.10°, 2.47°)보다 우수했다. 두 백색 잡음 상황에서는 히스토그램‑ESPRIT이 MAE 면에서 약간 앞섰지만, SDE는 제안 방법이 1.62°에 비해 10.62°로 크게 뒤처졌다. 두 음성 상황에서는 제안 방법이 CSS보다 나은 성능을 보였으나, 히스토그램‑ESPRIT(2.57°, 5.64°)에 비해 MAE와 SDE 모두에서 열위했다. 이는 LS 기반 회전이 스펙트럼이 희소한 음성 신호에 대해 히스토그램 기반 방법보다 강인성이 떨어짐을 의미한다.
연산 시간 측면에서는 히스토그램‑ESPRIT과 CSS가 각각 13 %와 22.6 % 빠른 반면, 제안 방법은 22.6 % 정도의 속도 향상을 기록했다.
결론적으로, 신호 서브스페이스 회전과 공분산 재구성은 사전 DOA 지식 없이도 광대역 ESPRIT을 구현할 수 있게 하며, 계산 복잡도와 메모리 요구량을 크게 낮춘다. 향후 연구 과제로는 별칭 문제 해결, 비정상적(비정상) 환경에서의 강인성 강화, 그리고 실시간 구현을 위한 최적화가 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기