계층형 풀링 구조를 활용한 약약 라벨 사운드 이벤트 검출
** 본 논문은 약약 라벨(weakly‑labeled) 음향 데이터에 대한 사운드 이벤트 검출을 다중 인스턴스 학습(MIL) 문제로 정의하고, 기존 풀링 함수의 한계를 극복하기 위해 계층형 풀링 구조를 제안한다. 제안된 구조는 프레임‑레벨 예측을 일정 구간으로 묶어 단계별로 평균·가중 평균을 수행함으로써, 파라미터 증가 없이 최대, 평균, 선형·지수 소프트맥스, 어텐션 등 세 종류의 풀링 함수에 대해 성능을 크게 향상시킨다. DCASE 20…
저자: Ke-Xin He, Yu-Han Shen, Wei-Qiang Zhang
**
본 논문은 약약 라벨(weakly‑labeled) 음향 데이터에서 사운드 이벤트를 검출하는 문제를 다중 인스턴스 학습(MIL)으로 정의하고, 풀링 함수 선택이 성능에 미치는 영향을 심도 있게 분석한다. 전통적인 MIL 기반 사운드 이벤트 검출에서는 프레임‑레벨 확률 \(x_i\) 를 클립‑레벨 확률 \(y\) 로 변환하기 위해 max‑pooling, average‑pooling, linear‑softmax, exponential‑softmax, attention 등 다양한 풀링 함수를 사용한다. 그러나 프레임‑레벨 예측이 불안정하면 클립‑레벨 결과도 크게 흔들리며, 특히 약약 라벨 상황에서는 라벨이 클립 단위로만 제공되기 때문에 프레임‑레벨 학습이 어려워진다.
이를 해결하기 위해 저자는 **계층형 풀링 구조(Hierarchical Pooling Structure)** 를 제안한다. 기본 아이디어는 프레임‑레벨 예측을 일정 길이 \(M\) 로 그룹화해 구간‑레벨 예측 \(\hat{x}_j\) 와 구간‑레벨 가중치 \(\hat{w}_j\) 를 만든 뒤, 다시 여러 구간을 묶어 더 긴 구간‑레벨 \(\tilde{x}_k, \tilde{w}_k\) 로 압축하고, 최종적으로 \(\tilde{x}_k, \tilde{w}_k\) 를 이용해 클립‑레벨 \(y\) 를 계산한다. 구체적인 수식은 다음과 같다.
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기