NIPS4Bplus 풍부한 주석이 달린 조류소리 오디오 데이터셋

본 논문은 687개의 훈련 녹음과 1,000개의 테스트 녹음으로 구성된 NIPS4Bplus 데이터셋을 소개한다. 각 녹음은 61종의 조류와 7종의 곤충·양서류에 대한 종 레이블과, 전문가가 직접 만든 시작·종료 시각을 포함한 시간 주석을 제공한다. 데이터는 프랑스와 스페인 7개 지역에서 수집되었으며, 종별 최소 7개의 샘플을 확보해 학습·평가에 적합하도록 설계되었다. 이 데이터셋은 조류 소리 검출·분류, 다중 라벨 학습, 약한 라벨링 기법 등 …

저자: Veronica Morfi, Yves Bas, Hanna Pamu{l}a

NIPS4Bplus 풍부한 주석이 달린 조류소리 오디오 데이터셋
본 논문은 조류 소리 인식 연구에 필요한 완전한 감독 학습 데이터를 제공하기 위해 NIPS4Bplus라는 새로운 데이터셋을 소개한다. 기존 NIPS4B 2013 챌린지는 종 존재 여부를 나타내는 태그만을 제공했으나, 시간적 위치 정보가 없었다. 이를 보완하기 위해 저자들은 프랑스와 스페인 7개 지역에 배치된 39개의 현장 녹음 장비에서 약 30시간 분량의 오디오를 수집하였다. 장비는 SM2B‑AT 레코더와 SMX‑US 마이크를 사용했으며, 일출 30분 후 3시간 동안 44.1 kHz, 6 dB SNR 트리거(2 s 윈도우) 설정으로 녹음했다. 수집된 파일은 5 s 길이로 분할하고, 배경 잡음 억제를 위해 SonoChiro를 적용해 조류 소리가 포함된 파일을 선별하였다. 선별된 5,000여 파일에 대해 층화 랜덤 샘플링을 수행해 지역·특징 다양성을 확보하고, 전문가가 직접 종 라벨을 검증하였다. 이후 동일 종이 최소 7번 이상 등장하는 경우만을 최종 후보로 삼아 훈련·테스트 세트를 구성하였다. 결과적으로 훈련 세트는 687개(총 길이 <1 h), 테스트 세트는 1,000개(총 길이 ≈2 h)로 정리되었다. 태그는 총 87개 클래스로 정의되었으며, 이는 61종의 조류와 7종의 곤충·양서류, 그리고 같은 종 내에서도 ‘노래’, ‘울음’, ‘드럼’ 등 행동별 구분을 포함한다. 각 녹음은 1~6개의 활성 종을 포함하고, 종별 샘플 수는 최소 7개에서 최대 20개까지 고르게 배치되었다. 시간 주석은 Sonic Visualiser를 이용해 단일 annotator가 수행했으며, 시작 시간, 지속 시간, 클래스 라벨을 CSV 형식으로 제공한다. 주석 과정에서 원래 태그와 불일치하는 경우가 발견되면 실제 소리를 기준으로 라벨을 수정했으며, 식별이 어려운 경우 ‘Unknown’ 라벨을, 인간 음성 등 비조류 소리가 포함된 경우 ‘Human’ 라벨을 추가하였다. 전체 훈련 녹음 중 100개는 순수 배경 소음이며, 13개는 주석이 누락돼 약한 라벨링 연구에 활용될 수 있다. 데이터셋의 통계적 특성을 살펴보면, 전체 녹음 시간의 약 30%가 두 개 이상의 종이 동시에 발생하는 겹침 구간이며, 최대 6종까지 동시 발생한다. 이는 실제 야생 환경의 복잡성을 반영한다. 또한, 동일 종의 구절을 별도 이벤트로 나누거나 하나의 연속 이벤트로 묶는 주석 정책이 혼재해 있어, 모델이 이벤트 경계에 대해 편향되지 않도록 다양한 학습 전략을 시험할 수 있다. NIPS4Bplus는 다음과 같은 연구에 활용될 수 있다. (1) 다중 라벨 음향 이벤트 검출 및 분류 모델 학습, 특히 멀티인스턴스·멀티라벨 학습(MIL)과 같은 약한 라벨링 기법의 성능 평가. (2) 태그‑only 데이터와 시간 주석을 동시에 이용한 멀티태스크 학습(MTL)으로, 태그 예측과 이벤트 검출을 공동 최적화하는 모델 구축. (3) 기존 데이터셋(예: BirdVox‑full‑night)과 비교해 일반화 능력을 검증하거나, 새로운 데이터 증강 및 전이 학습 기법을 테스트하는 벤치마크. (4) 생태학적 연구에서 종 다양성, 서식지 별 소리 패턴, 계절·시간대별 활동량 분석 등에도 활용 가능하다. 결론적으로, NIPS4Bplus는 풍부한 종 라벨과 정밀한 시간 주석을 동시에 제공함으로써, 조류 소리 인식 분야에서 기존의 태그‑only 데이터가 갖는 한계를 극복하고, 최신 딥러닝 기반 음향 이벤트 검출·분류 모델의 개발 및 평가를 위한 핵심 자원으로 자리매김한다. 데이터는 공개되어 재현성 높은 연구와 다양한 응용 개발을 촉진한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기