다중음원 방향추정 위한 합성곱 순환신경망
본 논문은 다중 마이크 채널의 스펙트로그램을 그대로 입력으로 사용해, 합성곱‑순환 신경망(CRNN) 기반 DOAnet을 설계한다. 네트워크는 공간 의사 스펙트럼(SPS)을 회귀로 예측하고, 이를 바탕으로 2차원(방위·고도) 방향을 다중 클래스로 분류한다. 합성 데이터셋(무향·반향 환경, 1~3개의 겹치는 음원)에서 MUSIC 기반 전통 방법과 비교해 높은 SPS‑SNR과 낮은 DOA 오차를 달성한다.
저자: Sharath Adavanne, Archontis Politis, Tuomas Virtanen
본 논문은 다중 마이크 어레이에서 동시에 발생하는 여러 음원의 3차원 방향(방위·고도)을 정확히 추정하기 위해, 전통적인 신호 처리 기반 DOA 추정기법(MUSIC, ESPRIT 등)의 한계를 보완하는 딥러닝 모델을 제안한다. 제안된 모델은 DOAnet이라 명명했으며, 입력으로는 각 마이크 채널의 스펙트로그램을 그대로 사용한다. 구체적으로, 44.1 kHz 샘플링된 4채널 FOA(First‑Order Ambisonics) 신호를 2048‑point DFT와 40 ms 해밍 윈도우(50 % 오버랩)로 변환해 magnitude와 phase를 추출하고, 이를 L × 1024 × 2C 형태의 3‑D 텐서(L=100 프레임)로 만든다.
네트워크 구조는 크게 두 단계로 나뉜다. 첫 번째 단계는 3×3 필터를 갖는 4개의 2‑D CNN 레이어와 max‑pooling, 배치 정규화를 통해 시간‑주파수 로컬 특징을 추출하고 차원을 압축한다. 이후 reshape하여 (L × 2 × NC) 형태로 만든 뒤, bidirectional GRU 두 층을 통과시켜 장기 시간 의존성을 학습한다. 이 RNN 출력은 전결합(FC) 레이어를 거쳐 첫 번째 출력인 공간 의사 스펙트럼(SPS)을 회귀 형태로 예측한다. SPS는 10° 간격으로 균일하게 샘플링된 614개의 방위·고도 조합에 대해 강도 값을 제공한다.
두 번째 단계는 첫 번째 단계와 동일한 CRNN 구조를 재사용하되, 마지막 FC 레이어에 sigmoid 활성화를 적용해 432개의 후보 방향(고도 -60°~60°) 각각에 음원 존재 확률을 출력한다. 학습 시에는 각 프레임마다 실제 존재하는 음원의 방향을 원‑핫 형태로 라벨링하고, 0.5 이상의 확률을 음원 존재로 판단한다. 손실 함수는 SPS에 대해 평균 제곱 오차(MSE), DOA에 대해 이진 교차 엔트로피(BCE)를 사용하며, 두 손실을 가중합해 역전파한다. Adam 옵티마이저와 dropout, early‑stopping을 적용해 1000 epoch까지 학습한다.
데이터는 DCASE 2016 Task 2에서 제공된 실제 환경 사운드 이벤트(스피치, 기침, 문 닫힘 등) 11종을 활용해 합성하였다. 각 음원은 무향(anechoic) 혹은 사무실 규모 방(리버버런트) 안에 무작위 위치와 거리(1–10 m)로 배치했으며, 겹치는 경우 최소 10° 이상의 공간적 간격을 두었다. 30 초 길이의 녹음에 1~3개의 음원이 겹치도록 O1, O2, O3 시나리오를 만들고, 각각 240개의 훈련·60개의 테스트 샘플을 3개의 교차 검증(CV) 분할로 구성했다. 리버버런트 경우는 이미지‑소스 모델을 이용해 방 반사와 감쇠를 시뮬레이션했으며, 테스트는 방 크기와 반향시간을 변형한 3가지 환경(Room 1, 2, 3)에서 수행했다.
성능 평가는 두 가지 지표로 나뉜다. 첫째, SPS‑SNR은 DOAnet이 예측한 SPS와 MUSIC 기반 GT SPS 사이의 신호대잡음비를 dB로 측정한다. 둘째, DOA 오류는 추정된 각도와 GT 각도 사이의 구면 거리(도) 평균을 구하고, Hungarian 알고리즘으로 최적 매칭을 수행해 프레임당 추정된 음원 수와 정확도 비율을 함께 보고한다. 실험 결과, DOAnet은 무향 환경에서 SPS‑SNR이 MUSIC 대비 평균 4 dB 상승했으며, 리버버런트 환경에서도 3 dB 수준의 개선을 보였다. DOA 측면에서는 1~2음원 상황에서 평균 오류가 5° 이하, 3음원 상황에서도 7° 이하로, 기존 DNN 기반 단일·이중 음원 모델보다 현저히 낮은 오류를 기록했다. 특히, DOAnet은 사전에 음원 수를 알 필요 없이 자동으로 존재하는 방향을 탐지하므로, 실시간 다중음원 추적 시스템에 유리한 구조적 장점을 가진다.
하지만 몇 가지 제한점도 존재한다. 현재는 FOA(4채널) 입력에 최적화돼 있어 고차원 HOA(고차수 앰비소닉)나 비구형 어레이에 대한 일반화 검증이 부족하다. 또한, 정적인 음원만을 대상으로 했기 때문에 움직이는 소스에 대한 연속 추적 성능은 추가 연구가 필요하다. 향후 연구에서는 고차수 앰비소닉, 비정형 마이크 어레이, 실시간 구현, 그리고 영상·음향 멀티모달 융합을 통한 복합 환경에서의 견고성 향상을 목표로 할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기