딥러닝 기반 실내 음원 3차원 위치 추정: 원시 오디오를 직접 입력으로 하는 엔드투엔드 CNN

본 논문은 실내 환경에서 인간 음성 등 광대역 음원을 정확히 위치 추정하기 위한 새로운 딥러닝 기반 프레임워크를 제시한다. 기존의 음향 소스 로컬라이제이션(ASL) 연구는 크게 시간 지연(TDOA) 기반, 빔포밍 기반, 고해상도 스펙트럼 추정 기반으로 나뉘며, 대부분은 신호 전처리 단계에서 GCC‑PHAT, SRP‑PHAT 등과 같은 손수 설계된 특징을 추출한 뒤 이를 이용해 위치를 계산한다. 이러한 전통적 접근법은 방의 반향, 잡음, 마이크 비선형성 등 복합적인 왜곡에 취약하고, 특징 설계에 많은 도메인 지식이 요구된다. 이에 저자들은 원시 오디오 파형 자체를 입력으로 받아 직접 3차원 좌표를 회귀하는 1‑D 컨볼루션 신경망(CNN)을 설계하였다. 네트워크는 총 5개의 컨볼루션 블록과 2개의 완전 연결(FC) 블록으로 구성된다. 첫 두 블록은 각각 96개의 7‑샘플 커널을 사용하고, 이어지는 두 블록은 128개의 5‑샘플 커널, 마지막 블록은 128개의 3‑샘플 커널을 적용한다. 각 블록은 커널 크기와 동일한 Max‑Pooling을 포함해 시간 해상도를 단계적으로 감소시키며, 이는 파형 내 지역적 패턴을 효과적으로 포착한다. FC 레이어는 500개의 은닉 유닛을 갖고, 최종 출력 레이어는 (x, y, z) 좌표 3개를 직접 예측한다. 활성화 함수는 ReLU이며, 과적합 방지를 위해 FC 레이어에 0.5의 드롭아웃을 적용한다. 학습 데이터가 제한적인 현실을 고려해 두 단계 학습 전략을 제안한다. 첫 단계에서는 근접 마이크(anechoic) 녹음된 음성 데이터를 활용해 반합성 데이터셋을 만든다. 구체적으로, 방 안의 임의 위치를 균등하게 샘플링하고, 해당 위치에 대한 방 응답(RIR)을 시뮬레이션하거나 실제 RIR을 사용해 원시 음성을 컨볼루션한다. 이렇게 생성된 다수의 마이크 신호와 대응되는 3‑D 좌표를 이용해 대규모 사전 학습을 수행한다. 손실 함수는 평균 제곱 오차(MSE)이며, 최적화는 확률적 경사 하강법(SGD) 기반이다. 두 번째 단계에서는 실제 실험실에서 수집된 제한된 데이터(수십~수백 샘플)를 이용해 미세조정을 진행한다. 사전 학습된 가중치를 초기값으로 사용함으로써, 적은 양의 실제 데이터만으로도 네트워크가 실제 방의 복잡한 음향 특성을 학습하도록 한다. 실험은 공개된 실내 음성 데이터베이스(예: AV16.3)를 사용해 진행되었다. 비교 대상으로는 전통적인 SRP‑PHAT, GCF, 그리고 최근 제안된 딥러닝 기반 방법들이 포함되었다. 평가 지표는 평균 위치 오차와 누적 정확도이다. 결과는 제안 CNN이 SRP‑PHAT 대비 평균 위치 오차를 약 30 %~40 % 감소시켰으며, 특히 화자 성별(남·여) 변화와 윈도우 길이(20 ms~200 ms) 변화에 대한 민감도가 낮아 실시간 서비스 환경에서의 적용 가능성을 보여준다. 또한, 반합성 데이터만을 사용한 사전 학습만으로도 어느 정도 성능을 확보할 수 있었으며, 실제 데이터 미세조정이 최종 성능 향상에 크게 기여함을 확인하였다. 논문의 주요 기여는 다음과 같다. (1) 원시 오디오 파형을 직접 입력으로 하는 최초의 엔드투엔드 3‑D 위치 추정 CNN을 제안하였다. (2) 제한된 실제 데이터 환경에서 효과적인 두 단계 학습 전략을 설계하였다. (3) 기존 SRP‑PHAT 기반 방법보다 높은 정확도와 환경 변화에 대한 강인성을 입증하였다. 한계점으로는 마이크 배열이 고정돼 있다는 가정, 반합성 데이터 생성 시 방 응답 모델의 정확도 의존성, 그리고 1‑D 컨볼루션에 국한된 특성 추출 방식 등을 들 수 있다. 향후 연구에서는 다양한 배열 구성에 대한 일반화, 더 정교한 방 시뮬레이션, 2‑D 스펙트로그램 기반 CNN 또는 트랜스포머 모델과의 비교, 그리고 비디오와 결합한 멀티모달 로컬라이제이션 등을 탐색할 계획이다.

딥러닝 기반 실내 음원 3차원 위치 추정: 원시 오디오를 직접 입력으로 하는 엔드투엔드 CNN

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기