다중실내 반향 데이터셋을 활용한 사운드 이벤트 위치 탐지
본 논문은 DCASE 2019 SELD 과제를 위해 5개 실내 환경에서 수집한 실제 방향성 임펄스 응답(IR)을 이용해 합성한 다중실내 반향 데이터셋을 제시한다. 데이터는 4채널 FOA와 4채널 마이크 어레이(MIC) 두 포맷으로 제공되며, 11개의 사운드 클래스와 최대 2개의 중첩 이벤트를 포함한다. 베이스라인으로는 기존 SELDnet을 변형한 CNN‑RNN 구조를 사용해 azimuth·elevation 직접 회귀를 수행하고, 교차 검증 4‑…
저자: Sharath Adavanne, Archontis Politis, Tuomas Virtanen
본 논문은 2019년 DCASE 챌린지를 위한 사운드 이벤트 위치 탐지(SELD) 과제의 데이터셋 및 베이스라인 시스템을 상세히 소개한다. SELD 과제는 사운드 이벤트의 발생 시점(SED)과 동시에 공간적 위치(DOA)를 추정하는 복합 문제이며, 이를 위해서는 다양한 실내 환경에서 수집된 방향성 임펄스 응답(IR)이 필요하다. 기존 연구들은 단일 실내 환경에서 얻은 IR만을 사용했기 때문에 실제 적용 시 반향 및 잡음 조건에 대한 일반화가 어려웠다. 이를 극복하고자 저자들은 Tampere 대학 캠퍼스 내 5개의 서로 다른 방(크기, 재질, 가구 배치가 상이)에서 Eigenmike 32채널 구형 마이크 어레이를 이용해 방별 IR을 수집하였다. 각 방에서는 1 m와 2 m 거리에서 각각 36개의 방위(azimuth)와 9·5개의 고도(elevation) 조합을 측정해 총 504개의 고유 DOA를 확보했다. 또한 동일 환경에서 30분 분량의 배경 잡음도 녹음해 실제 환경 소음 조건을 재현하였다.
데이터셋은 두 가지 포맷으로 제공된다. 첫 번째는 4채널 First‑Order Ambisonics(FOA) 형식이며, 32채널 마이크 신호를 실험적으로 측정된 인코딩 필터를 통해 변환한다. 두 번째는 4채널 마이크 어레이(MIC) 형식으로, Eigenmike의 32채널 중 6, 10, 26, 22번 마이크를 선택해 정사면체 배열을 구성한다. 두 포맷 모두 동일한 사운드 씬을 담고 있어, 연구자는 Ambisonics 기반 방법과 전통적인 마이크 어레이 기반 방법을 동일 조건에서 비교할 수 있다.
합성 과정은 DCASE 2016 Task 2에서 제공된 11개의 사운드 클래스(각 20개 샘플)를 무작위로 선택하고, 각 샘플을 동일 환경의 IR에 컨볼루션해 공간화한다. 각 1분 길이 녹음은 무작위 시작 시점을 갖는 최대 두 개의 이벤트가 겹치도록 배치했으며, 절반은 겹치지 않는 단일 이벤트로 구성했다. 마지막으로 해당 환경에서 녹음된 배경 잡음을 평균 SNR 30 dB가 되도록 추가해 실제 실내 소음 조건을 모사하였다. 개발 세트는 400개의 1분 녹음(4개의 교차 검증 스플릿, 각 100개)으로 구성되고, 평가 세트는 100개의 1분 녹음으로 이루어진다. 개발 세트와 평가 세트는 사용된 고유 사운드 샘플만 다를 뿐, 방, IR, 배경 잡음 등 모든 환경 변수는 동일하게 유지된다.
베이스라인 모델은 기존 SELDnet
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기