바이노럴 특징과 국소선형 회귀를 이용한 이미지 내 음원 동시 위치 추정

본 논문은 두 개의 마이크가 귀에 장착된 더미 헤드(dummmy head)를 이용해 수집한 바이노럴 신호에서 음원 위치를 추정하는 새로운 프레임워크를 제시한다. 기존 연구들은 주로 W‑disjoint‑orthogonality(WDO) 가정을 기반으로 TF 영역에서 각 포인트가 단일 음원에 의해 지배된다고 전제하고, 이를 히스토그램 피크 탐지, EM‑기반 소스 분리·위치 추정 등으로 구현했다. 그러나 WDO는 실제 복합 환경에서 위배될 가능성이 높고, EM 과정은 계산량이 많아 실시간 적용에 제약이 있다. 이에 저자들은 ‘역회귀(inverse regression)’라는 아이디어를 도입한다. 구체적으로, 저차원(음원 방위, 즉 방위·고도) → 고차원(바이노럴 특징, ILD·IPD) 매핑을 Gaussian Locally‑Linear Mapping(GLLiM) 모델로 학습한다. 훈련 단계에서는 화이트노이즈(전 스펙트럼)를 다양한 방위에 놓고, 동시에 시각적 마커를 촬영해 정확한 방위 라벨을 확보한다. 이렇게 얻은 (방위, 바이노럴 특징) 쌍을 이용해 GLLiM의 파라미터(선형 변환 행렬, 공분산, 혼합 비율 등)를 추정한다. 학습된 모델을 이용해 테스트 단계에서는 관측된 바이노럴 스펙트로그램을 입력으로 방위의 사후분포를 직접 계산한다. 이 사후분포는 가우시안 혼합모델(GMM) 형태이며, 각 혼합 성분은 훈련 데이터의 로컬 선형 변환에 대응한다. 중요한 점은, 스펙트로그램이 희소한 음성 신호일 경우 많은 TF 포인트가 ‘음원 없음’으로 표시된다는 점이다. 논문은 이러한 결측값을 마스킹하고, 전체 스펙트로그램을 고차원 관측 벡터 집합으로 취급해 GLLiM의 사후 계산에 포함시킨다. 결과적으로, 결측값이 존재해도 안정적인 방위 추정이 가능해진다. 시스템 구성은 다음과 같다. 두 마이크가 장착된 더미 헤드와 그 아래에 카메라를 배치하고, 화이트노이즈를 방출하는 스피커와 시각적 마커를 함께 들고 다양한 위치에서 녹음·촬영한다. 이렇게 수집된 데이터는 ‘audio‑visual’ 데이터셋으로 공개되며, 방위 라벨은 이미지 좌표(가로·세로)와 직접 매핑된다. 실험에서는 1개와 2개의 음원(화이트노이즈 혹은 실제 음성) 상황을 각각 10 s 이상 녹음한 실내 환경에서 평가했다. 비교 대상은 전통적인 WDO 기반 히스토그램 피크 탐지, EM 기반 소스 분리·위치 추정, 그리고 최근의 딥러닝 기반 SSL 모델이다. 제안 방법은 평균 방위 오차에서 3°~5° 정도의 개선을 보였으며, 특히 2음원 상황에서 기존 방법이 종종 혼동을 일으키는 반면, 본 방법은 혼합 성분을 명확히 구분해 정확한 두 방위를 동시에 추정했다. 처리 속도는 GPU 없이 CPU만 사용해 30 fps 이상을 유지했으며, 이는 실시간 로봇 청취나 회의실 인터페이스에 충분히 적용 가능함을 의미한다. 또한, 방위 추정 결과를 이미지 좌표에 매핑해 얼굴 검출기와 결합함으로써 ‘화자 얼굴’과 ‘비화자 얼굴’을 구분하는 시연을 수행했다. 화자 얼굴에 해당하는 좌표는 음성 신호와 일치하는 방위에 매핑되고, 비화자 얼굴은 매핑되지 않아 시각적으로 구분이 가능했다. 이 결과는 음‑시각 융합 응용(예: 화자 추적, 자동 회의록 작성, 인터랙티브 전시 등)에 큰 잠재력을 보여준다. 결론적으로, 본 논문은 (1) 물리적 헤드‑관련 전이 함수(HRTF)를 명시적으로 모델링하지 않고 데이터‑드리븐 회귀로 대체, (2) 결측값을 허용하는 시계열 확장을 통해 희소 스펙트럼(음성)에도 강인하게 동작, (3) 실시간 성능을 유지하면서 다중 음원을 동시에 정확히 위치 추정, (4) 음‑시각 융합을 통한 실용적 응용 가능성을 입증한다는 네 가지 주요 기여를 제시한다. 향후 연구에서는 움직이는 음원, 더 복잡한 방음 환경(예: 대규모 칵테일 파티), 그리고 딥러닝 기반 특징 추출과의 하이브리드 모델을 탐색할 계획이다.

바이노럴 특징과 국소선형 회귀를 이용한 이미지 내 음원 동시 위치 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기