컨볼루션·리커런스 결합 음성 향상 네트워크
본 논문은 스펙트로그램의 시간·주파수 로컬 패턴을 효율적으로 추출하는 2‑D 컨볼루션 레이어와, 양방향 LSTM을 이용해 프레임 간 동적 상관관계를 모델링하는 구조를 제안한다. 이 모델(EHNET)은 순수 데이터 기반으로 노이즈 유형이나 정체성을 가정하지 않으며, 7,500개의 훈련 샘플을 사용해 학습한 뒤 기존 MLP·RNN 기반 방법들보다 PESQ 점수에서 최대 0.64까지 향상시킨다.
저자: Han Zhao, Shuayb Zarar, Ivan Tashev
본 논문은 음성 향상(speech enhancement) 문제를 데이터‑드리븐 방식으로 해결하고자, 컨볼루션 신경망(CNN)과 양방향 순환 신경망(Bi‑LSTM)을 결합한 새로운 엔드‑투‑엔드 모델 EHNET을 제안한다. 기존 연구들은 주로 다층 퍼셉트론(MLP)이나 단일 방향 RNN을 사용했으며, 이들은 스펙트로그램의 시간·주파수 로컬 구조를 충분히 활용하지 못한다는 한계가 있었다. 저자들은 이러한 한계를 극복하기 위해, 먼저 2‑D 컨볼루션 레이어를 도입해 스펙트로그램의 주파수·시간 축에서 연속적인 패턴을 효율적으로 추출한다. 커널 크기는 32×11이며, 주파수 축에서는 16칸, 시간 축에서는 1칸의 스트라이드를 적용해 연산량을 크게 절감한다. 패딩을 통해 입력과 동일한 시간 길이를 유지하도록 설계했으며, 스트라이드가 절반이므로 차원 축소 효과도 동시에 얻는다.
컨볼루션 출력은 k=256개의 피처맵으로 구성되며, 이들을 채널 차원에서 연결해 2‑D 피처맵 H(x)∈ℝ^{p·k×t}를 만든다. 이후 이 피처맵을 양방향 LSTM에 입력한다. 양방향 LSTM은 두 층으로 구성되고, 각 층은 1024개의 은닉 유닛을 가진다. 이 구조는 과거와 미래 정보를 동시에 활용해 프레임 간 비선형 동적 상관관계를 모델링한다. LSTM의 출력 ˜H(x)∈ℝ^{q×t}는 최종 선형 회귀 레이어에 전달되며, 여기서 가중치 행렬 W∈ℝ^{d×q}와 바이어스 b_W를 통해 각 프레임의 청정 스펙트럼을 예측한다. 예측값은 음수가 되지 않도록 max(0,·) 함수를 적용해 비음수 영역으로 제한한다. 손실 함수는 전체 스펙트로그램에 대한 평균 제곱 오차(MSE)이며, AdaDelta 옵티마이저와 60 epoch마다 학습률을 1.0→0.1→0.01로 감소시키는 스케줄을 사용한다.
데이터는 7,500개의 훈련 샘플, 1,500개의 검증 샘플, 1,500개의 테스트 샘플로 구성된 합성 데이터셋을 사용한다. 각 샘플은 청정 음성(16 kHz, 24 bit)과 48개의 방 반향(RIR) 및 25가지 종류의 잡음(총 377개 파일)을 무작위 조합해 생성하였다. 추가로 32개의 미보인 잡음으로 만든 ‘UnseenNoise’ 테스트 셋을 통해 모델의 일반화 능력을 평가한다. 전처리로는 STFT를 적용해 256개의 주파수 빈(bin)과 약 500개의 프레임을 갖는 스펙트로그램을 얻는다. 평가 지표는 신호대잡음비(SNR), 로그 스펙트럼 왜곡(LSD), 시간 도메인 MSE, 단어 오류율(WER), 그리고 주관적 청취 품질을 측정하는 PESQ 다섯 가지이다.
비교 대상은 Microsoft 내부 상용 시스템(MS), DNN‑SYMM(대칭 컨텍스트 11), DNN‑CAUSAL(인과적 컨텍스트 7), RNN‑NG(3층, 500 유닛) 등이다. 실험 결과, EHNET은 모든 지표에서 최고 성능을 기록했다. 특히 PESQ 점수는 보이는 잡음에서는 0.6, 보이지 않는 잡음에서는 0.64점 향상했으며, 이는 청취 품질이 크게 개선되었음을 의미한다. 또한, 다른 딥러닝 기반 방법들이 SNR을 높이면서 WER을 악화시킨 반면, EHNET은 PESQ 향상과 동시에 WER을 감소시켜 ASR 성능까지 향상시켰다. 스펙트로그램 시각화에서도 EHNET이 배경 잡음을 효과적으로 억제하면서 고·저주파 영역의 실제 음성 성분을 잘 보존함을 확인할 수 있다.
모델 복잡도 측면에서, 컨볼루션 커널의 가중치 공유와 희소 연결 구조 덕분에 MLP 대비 파라미터 수와 연산량이 크게 감소한다. 스트라이드에 의한 차원 축소는 LSTM 입력 크기를 줄여 메모리 사용량을 최적화한다. 저자들은 추가적인 LSTM 층을 쌓거나 컨볼루션 스트라이드를 감소시켜도 성능 향상이 크지 않으며, 오히려 계산 비용이 급증한다는 점을 언급한다.
한계점으로는 실험이 모두 합성 데이터에 국한되어 실제 녹음 환경에서의 성능 검증이 부족하고, 실시간 처리 능력이나 모바일 디바이스 적용 가능성에 대한 분석이 없다는 점이다. 또한, 잡음 유형이 제한적이며, 다국어·다화자에 대한 평가가 이루어지지 않았다. 향후 연구에서는 실제 현장 녹음 데이터와 다양한 언어·화자에 대한 확장, 경량화 모델 설계 및 실시간 구현, 그리고 잡음 유형을 넘어선 강인한 일반화 기법을 탐구할 필요가 있다.
결론적으로, EHNET은 컨볼루션과 양방향 LSTM을 결합해 스펙트로그램의 로컬·전역 정보를 동시에 활용함으로써, 기존 MLP·RNN 기반 방법들보다 데이터 효율성과 성능 모두에서 우수함을 입증한다. 특히, 청취 품질과 ASR 인식 정확도를 동시에 개선한다는 점에서 실용적 가치가 높으며, 향후 음성 전처리 파이프라인에 적용될 가능성이 크다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기