노이즈와 잔향을 동시에 제거하는 향상된 DNN 기반 스펙트럼 특성 매핑

본 논문은 실시간 음성 인식 시스템에서 흔히 발생하는 두 가지 주요 왜곡, 즉 실내 환경에서의 잔향(reverberation)과 비정상적인 배경 잡음(additive noise)의 영향을 최소화하기 위한 방법론을 제시한다. 기존 연구들에서는 딥 뉴럴 네트워크(DNN)를 이용한 스펙트럼 특성 매핑(SFM‑DNN)이 잡음 억제에 효과적이라는 결과가 보고되었지만, 잔향 제거에는 한계가 있었다. 이를 보완하고자 저자들은 두 가지 접근을 결합한다. 첫 번째는 기존 SFM‑DNN 구조를 그대로 재현하고, 두 번째는 잔향 억제에 특화된 가중 예측 오차(Weighted Prediction Error, WPE) 기법을 앞단에 배치하는 캐스케이드 구조를 설계한다. 실험은 CHiME‑2 데이터베이스의 트랙 2를 사용했으며, Kaldi 툴킷 기반의 DNN‑HMM 음성 인식 시스템에 40차원 로그 멜 필터뱅크와 그 1차·2차 차분을 11프레임 컨텍스트와 함께 입력하였다. SFM‑DNN은 2개의 은닉층(각 2048 유닛)과 40개의 출력 유닛을 가진 MLP이며, 입력은 손상된 스펙트로그램, 목표는 깨끗한 로그 멜 필터뱅크였다. 입력·출력 모두 평균‑분산 정규화(MVN)를 적용하고, 10프레임의 주변 프레임을 포함시켰다. 재현 결과, SFM‑DNN은 -6 dB, -3 dB, 0 dB, 3 dB 구간에서 평균 4.5 %의 WER 감소를 보였지만, 6 dB와 9 dB에서는 오히려 0.8 % 상승하였다. 이는 모델이 잡음 억제에는 유리하지만, 잔향 억제에는 충분히 강건하지 않음을 의미한다. 따라서 WPE를 앞단에 삽입한 WPE+SFM‑DNN 구조를 실험했으며, WPE는 STFT 기반의 선형 회귀 필터를 반복적으로 추정해 비정상적인 잔향을 감소시킨다. 결과적으로 WPE 단독은 평균 11.4 %의 WER 감소를 달성했으며, WPE+SFM‑DNN은 10.8 % 감소에 그쳐 WPE 단독보다 낮은 성능을 보였다. 이는 SFM‑DNN 자체의 학습 한계가 전체 시스템 성능을 제한한다는 점을 시사한다. 이를 해결하기 위해 저자들은 SFM‑DNN 학습 과정에 세 가지 개선을 적용했다. 첫째, 드롭아웃(Dropout) 기법을 도입해 은닉 유닛을 무작위로 비활성화함으로써 과적합을 방지하고 모델의 일반화 능력을 향상시켰다. 둘째, 교차 검증(cross‑validation) 절차를 도입해 개발 셋의 손실을 매 에포크마다 모니터링하고, 손실이 1 % 이상 상승하거나 0.1 % 이하 감소할 경우 학습을 조기 종료하였다. 셋째, 입력 및 목표 특성에 대해 발화별 평균‑분산 정규화(MVN)를 수행해 각 발화의 통계적 차이를 최소화하였다. 이러한 개선을 적용한 SFM‑DNN‑E는 기존 SFM‑DNN 대비 평균 10.4 %의 WER 감소를 기록했으며, WPE와 결합했을 때는 WPE 단독 대비 7.9 % 추가 감소, 베이스라인 대비 18.3 % 감소를 달성했다. 최종 평균 WER은 13.2 %로, 동일 데이터베이스를 사용한 기존 연구(

노이즈와 잔향을 동시에 제거하는 향상된 DNN 기반 스펙트럼 특성 매핑

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기