한 마이크와 레고 브릭으로 구현하는 단일 센서 방향 추정: 비음수 행렬분해 기반 접근
본 논문은 머리와 유사한 스캐터링 구조를 마이크에 부착해 방향에 따라 고유한 주파수 응답을 만들고, 이를 비음수 행렬분해(NMF)와 사전 학습된 스펙트럼 사전(dictionary)으로 결합해 화이트 노이즈와 인간 음성의 단일 마이크 소스 방향을 정확히 추정하는 방법을 제시한다. 레고 브릭으로 만든 간단한 스캐터러도 충분히 성능을 발휘함을 실험으로 입증한다.
저자: Dalia El Badawy, Ivan Dokmanic
본 논문은 인간이 한쪽 귀만으로도 소리를 어느 방향에서 들었는지를 판단할 수 있다는 현상을 모방하여, 단일 마이크와 임의의 스캐터링 구조만으로도 정확한 방향 추정이 가능함을 보인다. 스캐터링 구조는 입사각에 따라 마이크의 주파수 응답 H(θ,f)이 달라지는 ‘디렉셔널 필터’를 제공한다. 이 필터는 머리와 귀가 소리를 굴절·반사시키는 헤드‑관련 전이 함수(HRTF)와 유사한 역할을 하며, 방향마다 고유한 스펙트럼 서명을 만든다.
먼저 화이트 노이즈에 대해 이론을 전개한다. 화이트 소스는 파워 스펙트럼이 평탄하므로, 관측된 파워 스펙트럼은 각 방향의 |H(θ,f)|²에 스케일링된 양의 선형 결합으로 표현된다. 이러한 결합은 ‘콘(cone)’이라 불리는 고차원 양의 선형 공간을 형성한다. 논문은 각 가능한 소스 조합 J에 대해 해당 콘을 가장 작은 서브스페이스 S_J로 근사하고, 관측된 PSD를 각 서브스페이스에 투영했을 때 최소 투영 오차를 주는 J를 선택하는 알고리즘(Algorithm 1)을 제시한다. 실험 결과, 스캐터링이 충분히 다양할수록(예: 레고 브릭으로 만든 구조) 콘 사이의 각도가 커져 구분력이 높아진다. 반면, 무지향성 마이크와 같이 H가 거의 평탄하면 모든 콘이 동일한 서브스페이스에 머물러 방향 구분이 불가능함을 확인한다.
다음으로 컬러드 소스, 특히 인간 음성에 대해 문제를 확장한다. 음성은 스펙트럼이 방향에 따라 변하는 H와 독립적인 고유 스펙트럼을 갖는다. 이를 해결하기 위해 비음수 행렬분해(NMF)를 도입한다. 관측된 magnitude 스펙트로그램 Y는 다음과 같이 모델링된다.
Y = A X + E, A =
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기