약한 라벨과 반지도 학습을 위한 GCRNN‑VAT‑SALR 기반 소리 이벤트 탐지 혁신

본 논문은 DCASE 2018 과제 4에서 요구하는 가정 환경의 대규모 약한 라벨·반지도 데이터에 대해, 게이트형 컨볼루션‑리커런트 신경망(GCRNN)과 가상 적대적 학습(VAT), 그리고 자체 적응 라벨 정제(SALR)를 결합한 시스템을 제안한다. GLU와 시간‑주의(attention) 레이어를 이용해 10 초 길이 클립의 이벤트 시작·종료를 예측하고, 약한 라벨만으로 학습하면서도 비지도 데이터로 정규화한다. 제안 모델은 매크로 평균 이벤트‑…

저자: Robert Harb, Franz Pernkopf

약한 라벨과 반지도 학습을 위한 GCRNN‑VAT‑SALR 기반 소리 이벤트 탐지 혁신
본 논문은 2018년 DCASE 챌린지 과제 4(가정 환경의 대규모 약한 라벨·반지도 소리 이벤트 탐지)를 목표로, Gated Convolutional Recurrent Neural Network(GCRNN), Virtual Adversarial Training(VAT), Self‑Adaptive Label Refinement(SALR)라는 세 가지 핵심 기술을 결합한 새로운 프레임워크를 제안한다. 1. **문제 정의 및 데이터 특성** - 제공된 학습 데이터는 1 578개의 10 초 길이 클립에 대해 “클래스 존재 여부”만 표시된 약한 라벨이며, 정확한 시작·종료 시점은 제공되지 않는다. - 추가로 도메인 내부(14 412 clip)와 외부(39 999 clip)의 비지도 데이터가 제공되지만, 외부 데이터는 클래스 분포가 다르므로 사용하지 않는다. - 평가 지표는 200 ms 온셋 콜라와 20 % 혹은 200 ms 오프셋 콜라를 적용한 매크로 평균 이벤트‑기반 F‑score이다. 2. **모델 아키텍처** - 입력은 64 mel‑band, 240 frame의 로그‑멜 스펙트로그램이며, 3개의 GLU‑기반 컨볼루션 블록(3×3, 64필터, max‑pool 1×2)으로 저수준 특징을 추출한다. - 이후 64 유닛 양방향 GRU를 사용해 시간적 의존성을 모델링하고, 두 개의 병렬 레이어(분류: sigmoid, 주의: softmax)를 통해 프레임‑레벨 클래스 확률과 프레임‑레벨 가중치를 산출한다. - 약한 라벨 예측은 두 출력의 가중 평균으로 계산되며, 이는 MIL(다중 인스턴스 학습) 형태의 손실 함수와 결합된다. 3. **Virtual Adversarial Training(VAT)** - VAT는 라벨이 없는 입력에 대해 작은 적대적 교란 \(r_{adv}\) 을 찾아 KL‑다이버전스 \(\mathrm{KL}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기