스펙트럼·메트릭 불일치를 해소한 엔드투엔드 다중과제 잡음제거

본 논문은 딥러닝 기반 음성 잡음 제거 시스템에서 흔히 발생하는 두 가지 근본적인 문제—스펙트럼 불일치와 메트릭 불일치—를 동시에 해결하는 새로운 엔드투엔드 프레임워크를 제안한다. 기존의 스펙트럼 마스크 예측 방식은 STFT 후 마스크를 적용하고 ISTFT를 수행하는 과정에서 위상 정보가 손실되거나 왜곡되어, 원본 스펙트럼과 복원된 신호 사이에 불일치가 발생한다. 이러한 스펙트럼 불일치는 Griffin‑Lim 알고리즘 등으로 보정하려 해도 완전한 해결이 어렵다. 논문은 네트워크 학습 자체를 ISTFT 이후의 시간‑도메인 신호에 직접 적용함으로써, 손실 함수가 실제 복원된 파형을 기준으로 계산되게 하여 스펙트럼 불일치를 근본적으로 차단한다. 두 번째 문제인 메트릭 불일치는, 전통적인 MSE 손실이 SDR(신호‑왜곡 비율)과 PESQ(지각적 음성 품질)와 선형적인 상관관계를 갖지 못한다는 점에서 비롯된다. SDR은 스케일 불변성을 포함하는 SI‑SDR 정의와 유사하게, 신호의 스케일을 최적화하는 α 파라미터가 필요하다. 논문은 이를 손실 함수에 직접 포함시켜, 학습 과정에서 α를 자동으로 추정하도록 설계하였다. 이렇게 하면 동일한 SNR을 가진 두 신호라도 SDR 관점에서 차이를 구분할 수 있다. PESQ 손실은 더욱 복잡한 구조를 갖는데, 원본 PESQ 파이프라인에서 IIR 필터, 지연 보정, 나쁜 구간 반복 등을 제거하고, Bark 스펙트럼 매핑, 레벨 정렬, 라우드니스 변환 등을 미분 가능하게 재구성하였다. 특히 대칭·비대칭 교란(disturbance) 계산을 근사화함으로써, 역전파가 가능한 형태로 만든 점이 혁신적이다. 두 손실을 가중합으로 다중과제 학습에 적용함으로써, SDR와 PESQ를 동시에 최적화한다는 목표를 달성한다. 네트워크 아키텍처는 5×5 커널을 갖는 2‑D CNN 레이어 3개와, 두 번째·세 번째 레이어에 각각 dilation rate 2와 4를 적용해 주파수 축의 수용 영역을 확대한다. 이후 시간 축의 장기 의존성을 포착하기 위해 양방향 BLSTM을 쌓아 마스크를 예측한다. 예측된 마스크는 원본 위상을 그대로 사용해 복소 스펙트럼을 재구성하고, Griffin‑Lim 기반 ISTFT를 통해 시간‑도메인 파형을 얻는다. 최종 손실은 이 파형에 대해 SDR 손실과 PESQ 손실을 동시에 계산한다. 실험에서는 다양한 잡음 유형(예: 백색 잡음, 카페 잡음)과 SNR 조건(−5 dB~20 dB)에서 기존 PSM 기반 모델, SEGAN, TF‑SEGAN 등과 비교하였다. 제안 모델은 SDR에서 평균 1.5 dB, PESQ에서 0.3 점 이상의 개선을 보였으며, 특히 저 SNR 구간에서의 향상이 두드러졌다. 스펙트럼 불일치가 크게 영향을 미치는 경우에도 제안 방식은 안정적인 성능을 유지한다. 또한, 다중과제 손실을 사용함에도 학습 안정성이 확보되었으며, 손실 가중치 조절을 통해 SDR와 PESQ 사이의 트레이드오프를 유연하게 조정할 수 있다. 결론적으로, 이 연구는 (1) 스펙트럼 불일치를 회피하기 위한 시간‑도메인 최적화, (2) SDR와 PESQ를 직접 반영한 두 개의 미분 가능 손실 함수 설계, (3) CNN‑BLSTM 기반 마스크 예측과 Griffin‑Lim ISTFT 결합이라는 세 가지 핵심 기여를 통해, 기존 딥러닝 기반 음성 향상 시스템이 실제 청취 품질과 객관적 신호 품질 지표를 동시에 최적화하도록 만든 점에서 큰 의의를 가진다. 향후 연구에서는 더 정교한 PESQ 근사화, 실시간 구현, 그리고 다중 스피커 상황에 대한 확장 가능성을 탐색할 수 있다.

스펙트럼·메트릭 불일치를 해소한 엔드투엔드 다중과제 잡음제거

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기