중첩 음원 탐지를 위한 3D 위치 추정과 이벤트 인식 통합 CNNRNN

본 논문은 다중 채널 스펙트로그램의 위상·크기 정보를 입력으로 사용하고, Convolutional‑Recurrent Neural Network(CRNN)를 통해 동시에 음향 이벤트 검출(SED)과 3차원 방향‑도착(DOA) 추정을 수행하는 SELD 시스템을 제안한다. 제안 모델은 다중 라벨 분류와 연속 좌표 회귀를 병렬로 출력하여, 겹치는 소리들을 각각의 라벨과 위치에 매핑하고 시간에 따라 추적한다. Ambisonic 및 원형 배열 데이터셋에서…

저자: Sharath Adavanne, Archontis Politis, Joonas Nikunen

중첩 음원 탐지를 위한 3D 위치 추정과 이벤트 인식 통합 CNNRNN
본 연구는 다중 음향 이벤트가 동시에 발생하는 3차원 공간에서, 각각의 이벤트를 정확히 식별하고 위치를 추정하는 SELD(Sound Event Localization and Detection) 문제에 초점을 맞춘다. 기존 연구들은 SED와 DOA 추정을 별도로 수행하거나, 특정 배열(예: 원형, 로봇용)과 제한된 각도 그리드에 의존하는 경우가 많아, 겹치는 소스가 많아질수록 데이터 연관 문제와 출력 차원의 폭발적 증가로 성능이 저하되는 한계가 있었다. 저자들은 이러한 한계를 극복하기 위해, (1) 입력 특징으로 모든 마이크 채널의 스펙트로그램 위상과 크기를 그대로 사용해 배열 독립성을 확보하고, (2) Convolutional‑Recurrent Neural Network(CRNN)를 도입해 시간‑주파수 패턴과 장기 시간 의존성을 동시에 학습하도록 설계하였다. 구체적으로, M‑점 FFT와 50 % 오버랩을 적용해 각 채널에서 M/2개의 양의 주파수 bin을 추출하고, 위상과 크기를 별도 텐서로 구성한다. 이 두 텐서는 2‑D 컨볼루션 레이어를 통과하면서 공간적·주파수적 특징을 추출하고, 이어지는 양방향 GRU 레이어가 시퀀스 전반에 걸친 컨텍스트 정보를 통합한다. 네트워크는 두 개의 병렬 출력 헤드를 갖는다. 첫 번째 헤드는 N개의 사운드 이벤트 클래스에 대해 sigmoid 활성화와 binary cross‑entropy 손실을 사용해 다중 라벨 분류를 수행한다. 이 단계는 각 프레임마다 이벤트 존재 확률을 제공하며, 기존 polyphonic SED 연구와 동일한 구조를 차용해 높은 검출 정확도를 달성한다. 두 번째 헤드는 각 클래스당 3개의 회귀 유닛을 두어, 단위 구면상의 x, y, z 좌표를 직접 예측한다. 회귀 손실은 평균 제곱 오차(MSE)이며, 전체 손실은 두 손실의 가중합으로 최적화된다. 데이터 연관 문제를 해결하기 위해, 분류 단계에서 일정 임계값(예: 0.5) 이상으로 활성화된 클래스에 대해서만 해당 클래스의 회귀 출력을 최종 DOA 추정으로 채택한다. 이렇게 하면, 비활성 클래스에 대한 회귀값이 잡음으로 작용하는 것을 방지하고, SED 결과를 confidence‑measure로 활용해 DOA 추정의 신뢰성을 높인다. 실험은 총 7개의 데이터셋(5개 Ambisonic, 2개 원형 배열)에서 수행되었다. 각 데이터셋은 무향실, 다양한 반향시간을 가진 실내, 그리고 실제 생활 환경(실제 방 impulse response 사용)으로 구성되었으며, 겹치는 소스 수는 1~3개로 변동한다. 평가 지표는 SED의 F‑score, DOA의 평균 각도 오차, 그리고 프레임당 추정된 소스 수에 대한 recall을 포함한다. 제안 모델은 모든 실험 조건에서 두 개 이상의 기존 베이스라인(SED 전용, DOA 전용, SELD 전용)보다 우수한 성능을 보였다. 특히 겹침이 3개까지 증가할 때도 recall이 80 % 이상 유지되었으며, 기존 방법은 2개 겹침에서 급격히 감소하는 경향을 보였다. 또한, 훈련에 포함되지 않은 새로운 DOA(예: 30°, 75° 등)에서도 평균 각도 오차가 10° 이하로 유지돼, 회귀 기반 출력이 그리드‑베이스 분류보다 일반화 능력이 뛰어남을 확인했다. 낮은 SNR(0 dB 이하) 상황에서도 평균 오차가 12° 이하로, 잡음에 대한 강인성을 입증했다. 추가 실험에서는 입력 특징을 위상·크기만 사용했을 때와, 기존 ILD·ITD·GCC와 같은 특성을 추가했을 때의 성능 차이를 비교했으며, 전자는 배열 독립성을 유지하면서도 거의 동일하거나 약간 높은 정확도를 제공했다. 이는 제안 방법이 특정 마이크 배열에 종속되지 않고, 다양한 하드웨어 환경에 바로 적용 가능함을 의미한다. 마지막으로, 저자들은 코드와 모든 데이터셋, 사용된 impulse response를 공개함으로써 재현성을 높이고, 향후 연구자들이 커스텀 사운드 이벤트나 새로운 배열 형태에 대해 쉽게 실험할 수 있도록 지원한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기