잔향 억제와 인식 성능을 동시에 잡는 Residual 기반 스펙트럼 매핑

본 논문은 잡음이 섞인 음성을 깨끗한 음성으로 직접 매핑하는 스펙트럼 매핑 기법을 개선하기 위해 두 가지 주요 접근을 제안한다. 첫 번째는 기존의 전통적인 DNN 기반 스펙트럼 매퍼를 잔차 네트워크(ResNet) 구조로 교체하는 것이다. ResNet은 입력 신호와 출력 신호 사이의 차이, 즉 노이즈 성분을 직접 학습하도록 설계돼, 음성 신호 복원 과정에서 불필요한 재구성을 최소화한다. 저자는 Wide‑ResNet에서 영감을 받아 4개의 컨볼루션 블록(각 블록은 다운샘플링을 위한 stride 2×2와 채널‑와이즈 드롭아웃을 포함)과 두 개의 2048‑노드 완전 연결층을 구성했으며, 전체 14층 깊이의 얕고 넓은 설계가 음성 잡음 제거에 최적임을 실험적으로 확인했다. 두 번째 혁신은 ‘모방 손실(mimic loss)’이라는 지식 전달 메커니즘을 도입한 것이다. 여기서는 깨끗한 음성으로 학습된 고성능 senone 분류기, 즉 Wide‑Residual BiLSTM Network(WRBN)를 교사 모델로 사용한다. 교사 모델은 청음 스펙트럼을 입력받아 1999개의 senone 확률 분포를 출력한다. 스펙트럼 매퍼가 노이즈가 섞인 입력을 깨끗한 스펙트럼으로 변환한 뒤, 동일한 교사 모델에 통과시켜 얻은 출력과 청음 입력에 대한 교사 모델 출력 사이의 L2 차이를 모방 손실로 정의한다. 이 손실은 전통적인 MSE 기반 충실도 손실과 가중치 α(WRBN 경우 0.05)로 선형 결합되어 최종 손실을 구성한다. 학습 절차는 두 단계로 이루어진다. 먼저, senone 분류기와 스펙트럼 매퍼를 각각 청음과 노이즈‑청음 쌍에 대해 사전 학습한다. 분류기는 교차 엔트로피 손실로 senone 라벨을 예측하고, 매퍼는 MSE 손실로 깨끗한 스펙트럼을 복원한다. 이후, 매퍼를 고정된 교사 모델에 연결해 모방 손실을 추가 학습한다. 이때 학습률은 Adam 옵티마이저(초기 1e‑4)와 0.95의 지수 감쇠를 사용하고, 수렴 후 학습률을 10배 감소시키는 전략을 적용한다. 실험은 CHiME‑2 데이터셋(16 kHz, 6 kHz 대역, 다양한 잡음·잔향 조건)에서 수행되었다. 입력은 25 ms 창, 10 ms 쉬프트로 STFT를 적용해 257 차원의 로그 스펙트럼을 얻고, 5‑프레임을 스택해 2827 차원의 입력으로 사용한다. Baseline은 2‑layer DNN(2048 ReLU)이며, delta와 double‑delta 특징을 포함한다. ResNet 기반 매퍼는 delta 없이도 성능이 향상되었으며, 모방 손실을 도입한 DNN 매퍼와 비교해 약 0.4%~0.6% 낮은 WER를 기록했다. WRBN 기반 모방 손실을 적용한 ResNet 매퍼는 최종적으로 9.3%의 WER를 달성했는데, 이는 동일 데이터셋에서 기존 최첨단 시스템(노이즈‑강인 특징, 전‑후 연결 학습 포함)보다 낮은 수치이다. 또한, 채널‑와이즈 드롭아웃을 사용함으로써 지역 구조를 보존하고, 기존 배치 정규화 대신 드롭아웃을 적용해 약 0.2%의 추가 WER 감소를 얻었다. 모델 깊이를 늘리거나 필터 수를 과도하게 확대해도 성능 향상이 제한적이었으며, 얕고 넓은 설계가 최적임을 확인했다. 결론적으로, 잔차 네트워크와 고성능 senone 분류기를 활용한 모방 손실은 스펙트럼 매핑을 인식 중심으로 재구성하는 효과적인 방법임을 입증한다. 제안된 전처리 모듈은 Kaldi와 같은 기존 ASR 파이프라인에 바로 적용 가능하며, 별도의 joint‑training 없이도 강력한 잡음 억제와 인식 정확도 향상을 제공한다. 이는 실시간 음성 인식, 다중 마이크 환경, 그리고 다양한 잡음 조건에서 전처리만으로도 높은 성능을 기대할 수 있음을 시사한다.

잔향 억제와 인식 성능을 동시에 잡는 Residual 기반 스펙트럼 매핑

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기