무표시 음성 활동 검출을 위한 강인한 특징 클러스터링

본 논문은 라벨이 전혀 없는 상황에서도 음성 활동을 정확히 구분할 수 있도록, Hartigan dip test를 기반으로 한 재귀적 클러스터링 기법을 제안한다. 5차원 Combo 특징을 1차 주성분으로 압축한 뒤, 통계적 모드 탐지를 통해 음성·비음성 구간을 자동으로 분리한다. NIST OpenSAD‑2015와 OpenSAT‑2017 데이터셋에서 기존 2‑컴포넌트 GMM 기반 방법보다 낮은 DCF를 달성하였다.

저자: Harishch, ra Dubey, Abhijeet Sangwan

본 논문은 라벨이 전혀 없는 상황에서도 음성 활동을 정확히 구분할 수 있는 완전 비지도 SAD 방법을 제안한다. 서론에서는 기존 감독학습 기반 SAD가 대규모 라벨링이 필요하고 도메인 불일치에 취약함을 지적하고, GMM 기반 비지도 방법이 여전히 성능 한계에 머물고 있음을 언급한다. 이러한 배경에서 ‘Hartigan dip test’를 활용한 클러스터링 접근법을 도입한다는 점이 핵심 동기이다. 제안된 방법은 크게 세 단계로 구성된다. 첫 번째는 특징 추출 단계로, 기존 연구에서 제안된 5‑차원 ‘Combo‑SAD’ 특징을 사용한다. 이 특징은 에너지, 제로‑크로싱, 스펙트럼 기반 지표를 결합한 것으로, 각 차원을 평균·분산 정규화한 뒤 PCA를 적용해 1차 주성분을 추출한다. 이 1차 성분은 음성 구간에서 높은 양의 값을, 잡음 구간에서 낮은(또는 음의) 값을 갖는 경향이 강해 클러스터링에 적합하다. 두 번째 단계는 Hartigan dip test를 이용한 모드 탐지이다. dip test는 누적분포함수(CDF)의 볼록·볼록함을 비교해 데이터가 단일 모드인지 다중 모드인지를 판단한다. 논문에서는 Algorithm 1인 `computeDip`을 구현해, 정렬된 특성값 o₁≤…≤o_N에 대해 가장 큰 편차를 보이는 구간

무표시 음성 활동 검출을 위한 강인한 특징 클러스터링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기