향상된 삼중 가중치 제한 볼츠만 머신을 이용한 음성 검출

본 논문은 기존 3‑way RBM의 파라미터 부담을 낮추고, 장기 음성 구조를 보존하기 위해 가중치 계수와 임계값 함수를 도입한 향상된 Factored Three‑Way RBM(EFTW‑RBM)을 제안한다. 저차원 팩터화와 비음수 제약을 결합해 희소성을 강화하고, 역방향 샘플링을 통해 얻은 가중치 α를 입력에 곱해 장기 컨텍스트를 반영한다. 실험 결과, AUC와 SDR 지표에서 기존 1D·2D 음성 검출 방법들을 전반적으로 능가한다.

저자: Pengfei Sun, Jun Qin

향상된 삼중 가중치 제한 볼츠만 머신을 이용한 음성 검출
본 논문은 음성 검출(SD) 분야에서 기존 1차원(time‑domain) 및 2차원(time‑frequency) 접근법의 한계를 극복하고자, 향상된 Factored Three‑Way Restricted Boltzmann Machine(EFTW‑RBM)을 제안한다. 기존 3‑way RBM은 입력 x, 가시 y, 숨김 h 세 개의 변수 사이에 3차원 텐서 wᵢⱼₖ를 이용해 상호작용을 모델링한다. 그러나 텐서 차원의 폭발적인 증가와 잡음에 대한 민감도는 실용적인 적용을 방해한다. EFTW‑RBM은 두 가지 핵심 아이디어로 이를 해결한다. 첫째, 세 번째 브랜치(조건부 입력)를 단순히 과거 프레임을 나열하는 것이 아니라, 이전 배치에서 재구성된 입력 X̂ₜ₋₁와 현재 가시층 Yₜ₋₁을 결합해 만든 Xₜ=

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기