스플릿앤머지 재귀 UNet 기반 에코 제거와 잡음 억제

본 논문은 실시간 통신에서의 에코와 잡음 억제를 위해, 주파수 대역을 효율적으로 분할·병합하고 다중 시간 해상도를 활용하는 재귀 기반 UNet 구조인 SMRU 모델을 제안한다. 다중 스케일 밴드 스플릿·머지 레이어와 가변 프레임 레이트 블록을 통해 복잡도를 50 M MAC/s부터 6.8 G MAC/s까지 조절 가능하게 하며, 기존 베이스라인 대비 경쟁력 있는 SI‑SNR, PESQ, ERLE 및 AECMOS 점수를 달성한다.

저자: Zhihang Sun, Andong Li, Rilin Chen

스플릿앤머지 재귀 UNet 기반 에코 제거와 잡음 억제
본 연구는 실시간 통신 시스템에서 발생하는 에코와 환경 잡음 문제를 해결하기 위해, 다양한 하드웨어 환경에 맞춰 확장·축소가 가능한 새로운 딥러닝 모델 SMRU를 제안한다. SMRU는 UNet 구조를 기반으로 하지만, 전통적인 UNet이 주파수 차원에서만 다중 해상도를 제공하는 것과 달리, 시간 차원에서도 가변 프레임 레이트(VR) 블록을 도입해 다중 시간 해상도를 구현한다. 입력으로는 마이크 혼합 신호, 원거리 신호, 선형 에코 취소(Linear AEC) 결과 등 네 개의 스펙트럼을 실·허수 형태로 결합한 8채널 텐서를 사용한다. 초기 2D 컨볼루션을 통해 임베딩 차원(E)으로 변환한 뒤, 멀티스케일 밴드 스플릿 레이어에서 주파수 대역을 저·중·고 3개의 영역으로 나누고, 각 영역에 서로 다른 커널·스트라이드 조합을 적용해 주파수 차원을 압축한다. 압축된 특징은 12개의 VR 블록(인코더 6개, 디코더 6개)으로 전달되며, 각 블록은 인과성을 유지하는 1D 컨볼루션 기반 다운샘플링, GRU와 인터밴드 MLP를 결합한 이중 경로, 그리고 인과성을 보장하는 업샘플링으로 구성된다. GRU는 시간적 종속성을, 인터밴드 MLP는 주파수 전역 관계를 효율적으로 모델링한다. 또한, UNet의 스킵 연결에 크로스‑스케일 합산 방식을 추가해 다양한 해상도 간 정보를 효과적으로 교환한다. UNet 처리 후에는 밴드 머지 레이어에서 각 서브밴드에 정규화·MLP를 적용해 복소수 마스크를 추정하고, 이를 원본 입력과 곱해 최종 스펙트럼을 복원한다. 필요에 따라 경량 포스트넷(여러 GRU 층 및 그룹 선형 레이어)으로 남은 잡음을 추가 억제한다. 손실 함수는 복소수 스펙트럼 MAE 손실에 에코 인식 손실과 VAD 기반 손실을 가중합해 에코 억제와 음성 보존을 동시에 최적화한다. 학습은 LibriSpeech와 DNS‑Challenge 잡음, SLR28 RIR을 이용해 530시간의 합성 데이터를 사용했으며, 테스트는 AEC Challenge의 실제 에코 데이터를 포함한 다양한 시나리오에서 수행했다. 모델 복잡도는 임베딩 차원 E를 10에서 200까지 조절해 50 M MAC/s(소형)부터 6.8 G MAC/s(대형)까지 확장 가능하도록 설계되었다. 실험 결과, SMRU‑T, SMRU‑S, SMRU‑L, SMRU‑H 네 가지 규모 모두 기존 최첨단 모델(NsNet, DTLN, DeepFilterNet, FastFullSubNet, BSRNN)과 비교해 SI‑SNR, WB‑PESQ, ERLE, AECMOS 등 주요 지표에서 동등하거나 우수한 성능을 보였다. 특히 작은 모델은 0.05 G MAC/s 수준의 연산량으로도 경쟁 모델 대비 높은 품질을 유지해 모바일·에지 디바이스에 적합하고, 큰 모델은 클라우드 환경에서 높은 정확도를 제공한다. 최종적으로 SMRU는 복잡도와 성능 사이의 트레이드오프를 유연하게 조절할 수 있는 범용 AEC·노이즈 억제 솔루션으로, 실시간 통신 서비스의 다양한 배포 시나리오에 적용 가능함을 입증한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기