Monte Carlo 드롭아웃으로 비정상 잡음 감소와 모델 선택 최적화

본 논문은 딥 뉴럴 네트워크(DNN)를 이용한 단일 채널 음성 강화에서 발생하는 ‘보이지 않는 잡음(unseen noise)’ 문제를 해결하기 위해 Monte Carlo(MC) 드롭아웃을 베이지안 추정기로 활용하는 새로운 프레임워크를 제안한다. 기존의 드롭아웃은 훈련 단계에서만 무작위로 뉴런을 비활성화해 과적합을 방지하지만, 테스트 단계에서는 모든 뉴런을 사용한다. Gal & Ghahramani가 제시한 이론에 따르면, 테스트 단계에서도 드롭아웃을 적용하면 모델 파라미터에 대한 확률적 샘플링이 가능해져 가우시안 프로세스 사후분포를 근사할 수 있다. 이를 통해 다수의 순전파 결과를 평균해 예측값(E(S))을 얻고, 각 순전파 결과 간의 분산을 계산해 예측 불확실성(Var(S))을 추정한다. 연구는 두 가지 실험을 진행한다. 첫 번째는 단일 DNN 모델에 MC‑드롭아웃을 적용한 ‘single‑MC’ 방식이다. 이 모델은 Factory2, M109, Babble, Leopard, Volvo 다섯 종류의 잡음과 0, 5, 10 dB SNR에서 생성된 혼합 음성을 모두 사용해 훈련한다. 테스트 시에는 동일한 잡음 외에 White, Pink, Factory1 등 보이지 않는 잡음에 대해 성능을 평가한다. 결과는 기존 드롭아웃 기반 모델에 비해 PESQ와 SSNR에서 일관된 향상을 보였으며, 특히 보이지 않는 잡음에서 그 차이가 크게 나타났다. 두 번째는 다중 잡음‑전용 모델을 활용하는 ‘Var‑MC’와 ‘μ‑MC’ 방식이다. 각각의 잡음에 대해 별도의 DNN 모델을 훈련하고, 테스트 프레임마다 각 모델에 대해 MC‑드롭아웃을 T=50번 수행한다. 각 모델의 예측 분산을 계산한 뒤, 가장 낮은 분산을 보이는 모델을 선택해 해당 프레임을 복원한다. 이 방법은 보이지 않는 잡음 상황에서 가장 낮은 평균 제곱 오차와 높은 PESQ를 달성한다. 그러나 동일 잡음(Seen noise)에서는 불확실성만으로 모델을 선택할 경우 성능이 저하되는 현상이 관찰되었다. 이를 보완하기 위해 ‘μ‑threshold’ 기반 전환 알고리즘을 도입하였다. 모든 모델의 불확실성이 사전에 정의한 임계값 μ보다 높으면 불확실성 기반 선택을 유지하고, 낮으면 사전에 학습된 잡음 분류기(classifier)를 사용해 모델을 선택한다. 이 하이브리드 전략은 Seen noise에서도 성능 저하를 최소화하면서 Unseen noise에서는 Var‑MC와 유사한 향상을 유지한다. 실험 설정은 TIMIT 음성 코퍼스를 사용하고, STFT magnitude(32 ms 프레임, 10 ms shift, 512‑point FFT, 257 차원) 를 입력으로 한다. 최적화는 Adam을 사용했으며, 정규화 파라미터 λ는 0으로 설정해 τ⁻¹=0을 만족한다. 모델 구조는 3개의 은닉층(각 2048 뉴런)과 ReLU 활성화, 출력층 역시 ReLU를 적용해 스펙트럼의 비음수 특성을 반영한다. 전체적으로 이 논문은 (1) MC‑드롭아웃을 통한 베이지안 추정이 DNN 기반 음성 강화의 일반화 능력을 향상시킨다, (2) 모델 불확실성을 예측 오차의 프록시로 활용해 프레임 단위 최적 모델 선택이 가능하다, (3) 불확실성 기반 선택과 분류기 기반 선택을 임계값으로 전환하는 하이브리드 전략이 Seen/Unseen 잡음 모두에서 균형 잡힌 성능을 제공한다는 세 가지 주요 기여를 제시한다. 향후 연구에서는 실시간 적용을 위한 드롭아웃 샘플 수 감소, 다양한 신호 처리 전처리와 결합, 그리고 비정상적인 환경(예: 다중 마이크, 회전 잡음)에서의 확장 가능성을 탐색할 여지가 있다.

Monte Carlo 드롭아웃으로 비정상 잡음 감소와 모델 선택 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기