ArrayDPS Refine 기반 다채널 음성 향상 재정제 기법
다채널 음성 향상 모델의 출력에 사전 학습된 깨끗한 음성 확산 모델을 적용해 왜곡을 감소시키는 훈련‑무료 방법을 제안한다. 노이즈 공간 공분산 행렬을 추정해 확산 후방 샘플링에 likelihood 가이드를 제공함으로써 기존 차별적 모델을 직접 정제한다. 실험 결과, 파형·STFT 기반 최신 차별적 모델들의 객관적·주관적 성능과 ASR WER이 일관되게 향상된다.
저자: Zhongweiyang Xu, Ashutosh P, ey
본 논문은 다채널 음성 향상(Multi‑channel Speech Enhancement) 분야에서 차별적(Discriminative) 딥러닝 모델이 회귀 손실에 의존하면서 발생하는 비선형 왜곡을 보완하기 위해, 사전 학습된 깨끗한 음성 확산 프라이어를 활용한 ‘ArrayDPS‑Refine’이라는 훈련‑무료 정제 메커니즘을 제안한다. 기존 차별적 모델은 마이크 배열을 이용해 공간 필터링을 수행하고, 파형 혹은 STFT 도메인에서 뛰어난 객관적 성능을 보이지만, 비선형 네트워크 처리와 저 SNR 환경에서의 불완전한 복원으로 인해 청취 품질과 자동 음성 인식(ASR) 성능이 저하되는 문제가 있다. 이러한 문제를 해결하고자, 저자들은 ArrayDPS(Unsupvervised Multi‑channel Diffusion Posterior Sampling)에서 영감을 받아, 차별적 모델의 출력만을 이용해 노이즈 공간 공분산 행렬(Noise Spatial Covariance Matrix, SCM)을 추정하고, 이를 확산 후방 샘플링 과정에 likelihood 가이드로 삽입하는 방법을 고안했다.
### 1) 문제 정의 및 배경
다채널 관측 Y(ℓ,k)∈ℂ^C는 방음 전달 함수 H(ℓ,k)와 청정 음성 X(ℓ,k)·의 컨볼루션, 그리고 복소 가우시안 노이즈 N(ℓ,k)로 모델링된다. 기존 차별적 모델은 Y를 직접 매핑해 X̂를 추정하지만, 회귀 손실이 복원된 스펙트럼의 위상·진폭을 동시에 최적화하려다 비선형 왜곡을 야기한다. 확산 기반 생성 모델은 사전 학습된 깨끗한 음성 분포 p_data(x)와 노이즈 스케줄 β_t를 이용해 순방향(noise injection)과 역방향(denoising) 과정을 학습한다. DPS는 베이즈 정리를 이용해 p(X|Y)∝p(X)·p(Y|X) 의 로그 기울기(gradient)를 두 부분으로 분리하고, 사전 학습된 스코어 s_θ(X_t,t)와 likelihood term ∇_X_t log p(Y|X_t) 를 결합해 샘플링한다. 다만, 실제 환경에서는 방음 전달 함수 H를 알 수 없으므로, 기존 ArrayDPS는 Forward Convolutive Prediction(FCP)이라는 STFT‑Domain 필터 추정 기법을 사용해 Ĥ를 추정한다.
### 2) 제안 방법: ArrayDPS‑Refine
ArrayDPS‑Refine은 차별적 모델 f_φ(·)가 만든 단일 채널 복원 ˜X와 원본 다채널 혼합 Y를 입력으로, 다음 절차를 수행한다.
1. **노이즈 SCM 추정**
- FCP를 이용해 ˜X와 Y로부터 방음 전달 함수 ˜H를 추정하고, 이를 통해 다채널 재버전 음성 ˜X_reverb = ˜H * ℓ ˜X 를 만든다.
- Y − ˜X_reverb을 차감해 다채널 노이즈 ˜N을 얻고, 지수 이동 평균(α=0.95)으로 노이즈 SCM Φ̂_NN(ℓ,k) = α·Φ̂_NN(ℓ−1,k) + (1−α)·˜N(ℓ,k)˜N^H(ℓ,k) 를 지속적으로 업데이트한다.
2. **압축 STFT 변환 및 초기화**
- ˜X를 압축 복소 STFT ˜X′ = |˜X|^{0.5}·exp(j∠˜X) 로 변환하고, 이를 확산 시간 단계 T′=300에서 시작하도록 초기화한다: X′_{T′}=√{ᾱ_{T′}}·˜X′ + √{1−ᾱ_{T′}}·ε (ε∼𝒞𝒩(0,2I)).
3. **확산 역전파 + Likelihood 가이드**
- 각 단계 t=T′…1에서, 사전 학습된 DDPM 스코어 ϵ_θ(X′_t,t) 로 prior step을 수행하고, denoised 압축 STFT ˆX′_0을 원래 STFT ˆX_0 로 복원한다.
- ˆX_0를 다시 FCP에 투입해 방음 전달 함수 ˆH를 추정하고, ˆH·ℓˆX_0 로 다채널 재버전 음성을 만든 뒤, Y−ˆH·ℓˆX_0 로 노이즈 ˆN을 추정한다.
- 추정된 노이즈와 SCM을 사용해 likelihood score G = ∇_{X′_t} log p(Y|X_t) ≈ ∑_{ℓ,k} ˆN(ℓ,k) Ĥ_b Φ̂_NN^{-1}(ℓ,k) ˆN(ℓ,k) 를 계산한다.
- 최종 역전파 단계에 G를 ξ·(1−α_t)/√{α_t}·G 로 가중해 prior 업데이트에 더한다. ξ는 0.4~1.2 사이에서 실험적으로 선택한다.
4. **정렬 및 출력**
- 최종 샘플 X_0를 STFT→시간 도메인으로 변환하고, FCP(N_H=1) 로 단일 프레임 필터를 추정해 X_0와 초기 ˜X를 정렬한다. 최종 출력은 정렬된 X_0이다.
### 3) 실험 설정
- **확산 모델**: 2‑D U‑Net (Dif‑finer와 동일), 1000 스텝, β_t 선형 스케줄(10⁻⁴→0.02), 압축 STFT 입력, 512‑FFT, hop 128, √Hann 윈도우.
- **학습 데이터**: DNS‑Challenge 클린 스피치 220 h, 4 s 길이, 16 kHz, Adam(1e‑4), 배치 64, 8 × H100 GPU, 2.5 M 스텝.
- **베이스라인**: 최신 파형 모델(Conv‑TasNet 변형), STFT‑Domain MVDR 기반 모델, 그리고 StoRM, Diff‑iner와 같은 기존 정제 기법.
- **평가 지표**: SI‑SDR, PESQ, STOI, MOS, 그리고 LibriSpeech‑trained ASR의 WER.
### 4) 결과 및 분석
- 모든 베이스라인에 대해 ArrayDPS‑Refine을 적용했을 때 SI‑SDR 평균 0.3 dB~0.6 dB 상승, PESQ 0.15~0.25 개선, STOI 1~2 % 상승을 기록했다.
- 저 SNR(≤0 dB) 상황에서 특히 큰 개선이 관찰되었으며, 이는 노이즈 SCM 기반 likelihood 가이드가 노이즈 특성을 정확히 반영해 잡음 억제를 강화했기 때문이다.
- ASR 실험에서는 WER이 5 %~12 % 감소했으며, 특히 실시간 통신 시나리오에서 인식 정확도가 크게 향상되었다.
- 주관적 MOS 평가에서도 “자연스러움”과 “왜곡 감소” 항목에서 유의미한 차이를 보였다.
- 배열‑agnostic 특성 검증을 위해 3‑채널, 5‑채널, 비정형 배열 구성에 대해 동일한 파라미터로 실험했으며, 성능 저하가 거의 없었다.
### 5) 논의 및 한계
- **SCM 추정 의존성**: 초기 차별적 모델이 제공하는 ˜X가 크게 왜곡될 경우, 노이즈 SCM 추정이 부정확해져 정제 효과가 감소한다. 향후에는 다중 모델 앙상블이나 베이지안 추정으로 강건성을 높일 필요가 있다.
- **연산 비용**: 현재 300~1000 스텝의 확산 샘플링은 실시간 적용에 부담이 된다. DDIM, 고속 샘플링, 혹은 단계별 스킵 연결을 통한 가속화가 필요하다.
- **노이즈 모델 가정**: 복소 가우시안 노이즈와 공간적 독립성을 가정했지만, 실제 환경에서는 비정상적인 잡음(예: 비동시성, 비정상적 스펙트럼)도 존재한다. 이러한 경우를 다루기 위한 비가우시안 확산 모델 확장이 기대된다.
### 6) 결론
ArrayDPS‑Refine은 차별적 다채널 음성 향상 모델의 출력에 사전 학습된 깨끗한 음성 확산 프라이어와 노이즈 SCM 기반 likelihood 가이드를 결합함으로써, 훈련 없이도 왜곡을 효과적으로 감소시키고 객관·주관 성능을 동시에 향상시키는 혁신적인 정제 프레임워크이다. 실험을 통해 최신 차별적 모델들을 능가하거나 동등한 수준의 퍼포먼스를 달성했으며, 배열‑agnostic, 모델‑agnostic 특성으로 다양한 실세계 응용에 바로 적용 가능함을 보였다. 향후 연구에서는 실시간 구현, 비가우시안 잡음 모델링, 그리고 다중 정제 단계의 연쇄 적용 등을 통해 더욱 실용적인 시스템으로 확장할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기