인공 청각, 인간 귀를 닮다: 코클리어 모델이 DNN 잡음 억제 성능을 높인다
초록
본 논문은 인간 청각의 코클리어 전처리를 딥러닝 기반 잡음 억제 시스템에 결합함으로써, 보이지 않는 잡음 유형과 음성‑대‑잡음비(SNR)가 낮은 상황에서도 성능이 크게 향상됨을 입증한다. 다섯 가지 코클리어 모델(GT, DCGC, DRNL, CARFAC, TL)을 전처리 단계에 적용하고, 완전 연결형 및 LSTM‑RNN 구조의 DNN에 입력하여 PESQ, segSNR, CD 등 객관 지표로 평가하였다. 비선형·동적 특성을 갖는 모델일수록 일반화 능력이 높아, 특히 TL 모델이 가장 큰 개선을 보였다.
상세 분석
이 연구는 인간 청각이 복잡한 비선형 및 동적 필터링을 통해 잡음에 강인함을 보이는 점에 착안하여, 기존 DNN 기반 잡음 억제 시스템이 사용하는 STFT·멜 스펙트럼 대신 생리학적 코클리어 모델을 전처리 단계에 도입하였다. 다섯 가지 모델은 단순한 가마톤 필터뱅크(GT)부터 동적 압축을 포함한 가마톤 변형(DCGC), 외이·중이 전달 함수를 포함한 DRNL, 연속 비대칭 공명기(CARFAC), 그리고 전송 라인(TL)까지 복잡도가 점진적으로 증가한다. 각 모델은 입력 신호를 주파수‑시간 영역에서 인간 귀가 실제로 수행하는 필터링과 압축을 모사함으로써, 잡음이 섞인 음성의 스펙트럼을 보다 인간 청각에 가까운 형태로 변환한다.
전처리된 특징을 입력으로 사용한 두 종류의 DNN 구조는 (1) 다층 완전 연결 신경망(FC‑DNN)과 (2) LSTM 기반 순환 신경망(RNN)이다. FC‑DNN은 프레임 확장을 통해 제한된 시간 정보를 활용하고, LSTM‑RNN은 장기 의존성을 직접 모델링한다. 두 네트워크 모두 이상 비율 마스크(IRM)를 예측하도록 학습되었으며, 예측된 마스크는 원본 가마톤 스펙트럼에 곱해져 최종 복원 음성을 생성한다.
실험은 babble, ICRA, factory 등 세 종류의 잡음과 –3 dB부터 9 dB까지의 SNR 구간을 포함한 훈련·테스트 셋을 사용하였다. 평가 지표는 PESQ(MOS), segmental SNR(segSNR), cepstral distance(CD)이며, 개선량(ΔPESQ, ΔsegSNR, ΔCD)으로 비교하였다. 결과는 비선형·동적 특성을 갖는 코클리어 모델일수록 DNN의 일반화가 크게 향상됨을 보여준다. 특히 TL 모델은 모든 잡음·SNR 조합에서 가장 높은 ΔPESQ와 ΔsegSNR, 가장 낮은 ΔCD를 기록했으며, 이는 전송 라인 모델이 인간 코클리어의 기계적·유체적 결합을 가장 정밀하게 재현하기 때문으로 해석된다. 반면 단순 GT 모델은 기존 STFT 기반 시스템과 비슷한 수준에 머물렀다.
또한, 동일한 코클리어 전처리를 적용했을 때 FC‑DNN과 LSTM‑RNN 모두 유사한 수준의 성능 향상을 보였으며, 이는 입력 특징 자체가 잡음에 대한 강인성을 제공한다는 중요한 시사점을 제공한다. 즉, DNN 구조의 복잡도보다도 청각 생리학적 전처리의 품질이 시스템 전반의 로버스트성을 좌우한다는 결론에 도달한다.
이 연구는 (1) 인간 청각 모델을 딥러닝 전처리로 활용함으로써 데이터 과적합(over‑training) 위험을 감소시키고, (2) 훈련 데이터에 포함되지 않은 새로운 잡음 유형에서도 안정적인 성능을 유지할 수 있음을 입증한다. 향후 연구에서는 다채널(스테레오) 입력, 실시간 구현, 그리고 청각 보조 기기와의 연계 등을 통해 실제 서비스 환경에 적용 가능한 시스템으로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기