다목적 음성 향상 프레임워크 EDNet 게이팅 맘바와 위상 이동 불변 학습
초록
EDNet은 마스크와 매핑을 동적으로 결합하는 Gating Mamba(GM) 모듈과, 위상 정렬 오류를 완화하는 Phase Shift‑Invariant Training(PSIT)를 도입해, 잡음, 잔향, 대역폭 제한 등 다양한 왜곡을 사전 가정 없이 하나의 모델로 처리한다. 실험 결과, 단일 및 복합 왜곡 상황 모두에서 기존 최첨단 방법들을 능가하거나 동등한 성능을 보이며, 위상 복원 정확도와 학습 효율도 크게 향상된다.
상세 분석
EDNet의 핵심은 두 가지 혁신적 구성요소에 있다. 첫 번째인 Gating Mamba(GM) 모듈은 최신 Mamba(시간‑주파수 혼합) 블록에 학습 가능한 게이트를 삽입해, 입력 스펙트럼의 지역적 특성에 따라 마스크 기반 억제(Erase)와 매핑 기반 재구성(Draw) 중 하나를 선택한다. 이때 게이트는 magnitude 특성뿐 아니라 주변 컨텍스트를 고려해 연속적인 0~1 값을 출력하며, 최종 출력은 gate × mask + (1‑gate) × mapping 형태로 결합된다. 따라서 잡음이 주로 존재하는 영역에서는 마스크가 강조되고, 고주파 손실이나 심한 왜곡이 있는 구간에서는 매핑이 주도적으로 작동한다. 기존 하이브리드 모델이 고정된 가중치 합산이나 단순 평균을 사용해 전역적으로 결합하는 데 반해, GM은 시간‑주파수 축 전체에 걸쳐 미세하게 조정된 가중치를 제공함으로써, 왜곡 유형이 혼재된 실제 환경에서도 최적의 처리 경로를 자동으로 탐색한다.
두 번째 구성요소인 Phase Shift‑Invariant Training(PSIT)은 위상 학습에서 흔히 발생하는 “정확히 같은 위상”을 강제하는 문제를 완화한다. PSIT는 훈련 단계에서 예측 위상과 정답 위상 사이에 최적의 순환 시프트(0~L‑1 샘플)를 탐색하고, 그 시프트에 맞춰 정답 위상을 동적으로 정렬한다. 이렇게 하면 작은 시간‑위상 이동이 손실에 과도하게 반영되는 것을 방지하고, 표준 L1·L2·SI‑SDR 등 기존 손실 함수를 그대로 사용할 수 있다. 또한, 위상 손실이 magnitude 손실에 역전파될 때 발생하는 불안정성을 감소시켜 전체 학습 효율을 높인다.
EDNet은 magnitude와 phase를 각각 전용 Dilated DenseNet 인코더‑디코더 스트림으로 분리 처리한다. magnitude 스트림은 64채널, phase 스트림은 32채널로 설계돼 각 특성에 맞는 표현력을 제공한다. 두 스트림은 중간에 TF‑Mamba 블록을 통해 교차 연결되며, 최종적으로 ISTFT를 거쳐 시간‑도메인 파형을 복원한다. PSIT는 훈련 시에만 적용되므로 추론 비용에 영향을 주지 않는다.
실험에서는 DNS‑2023(노이즈), REVERB‑CHALLENGE(잔향), VCTK‑BWE(대역폭 확장) 등 세 가지 대표 벤치마크와, 잡음·잔향·대역폭 제한이 동시에 가해진 복합 왜곡 시나리오를 평가하였다. 모든 경우에서 EDNet은 PESQ, STOI, SI‑SDR 등 주요 지표에서 기존 최첨단 모델(HD‑DEMUCS, CMGAN, PhaseDCN 등)을 능가하거나 동등한 성능을 기록했다. 특히 PSIT를 적용했을 때 위상 오류가 평균 15 % 감소했으며, 학습 수렴 속도도 20 % 이상 빨라졌다. Ablation 연구에서는 GM 없이 단순 마스크 혹은 매핑만 사용했을 때 성능 저하가 뚜렷이 나타났고, PSIT 없이 위상 손실만 사용했을 때는 불안정한 학습 현상이 관찰되었다.
전반적으로 EDNet은 “마스크 vs 매핑”이라는 기존 이분법을 넘어, 입력 신호의 지역적 특성에 따라 동적으로 최적 전략을 선택하는 구조적 유연성을 제공한다. 또한 PSIT는 위상 학습의 근본적인 정렬 문제를 해결하면서도 기존 손실 함수와 파이프라인을 그대로 유지한다는 실용적 장점을 갖는다. 향후 연구에서는 GM 모듈에 더 복잡한 컨텍스트 어텐션을 도입하거나, 실시간 스트리밍 환경에 맞춘 경량화 버전을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기