장시간 윈도우와 팬칩 변환을 이용한 잡음 및 잔향 음성 향상
본 논문은 짧은 STFT 프레임의 비정상성 한계를 극복하기 위해, 장시간 분석 윈도우를 지원하는 단시간 팬칩 변환(STFChT)을 도입한다. STFChT는 음성의 기본 주파수 변화를 선형 모델링함으로써 시간‑주파수 일관성을 연장한다. 이를 기반으로 단일 채널 MMSE‑LSA(Habets) 억제기를 적용하고, 다중 마이크 경우 MVDR 또는 DSB 빔포머를 전처리한다. REVERB 챌린지 데이터셋 실험에서 객관적 품질 지표(PESQ 등)는 STF…
저자: Scott Wisdom, Thomas Powers, Les Atlas
본 논문은 기존의 짧은 STFT 프레임이 갖는 비정상성 한계를 극복하고, 장시간 분석 윈도우를 활용함으로써 잡음 및 잔향이 섞인 음성을 효과적으로 향상시키는 새로운 프레임워크를 제안한다. 핵심 아이디어는 단시간 팬칩 변환(STFChT)을 사용해 음성 신호와 더 높은 시간‑주파수 일관성을 확보하는 것이다. STFChT는 시간 축을 비선형적으로 왜곡한 뒤 FFT를 수행하는 방식으로, 분석 윈도우를 왜곡 전 적용함으로써 윈도우 자체의 스미어링을 방지한다. 이때 각 프레임마다 최적의 챕 레이트 α를 GLogS(조화 로그 스펙트럼) 기반으로 추정한다. GLogS는 각 프레임의 기본 주파수 f0와 그 배음들을 고려해 로그 스펙트럼을 집계한 것으로, α를 조정하면 음성의 조화 구조가 가장 잘 정렬된 변환을 얻을 수 있다. 결과적으로 동일한 윈도우 길이에서도 STFChT는 STFT보다 스펙트럼 에너지가 더 좁은 bin에 집중되며, 이는 각 bin의 신호‑대‑잡음 비율(SNR)을 상승시켜 과도한 억제를 방지한다.
음성 향상 단계에서는 Habets가 제안한 MMSE‑LSA 변형(H‑MMSE‑LSA)을 적용한다. 이 알고리즘은 잡음뿐 아니라 늦은 잔향을 통계적 모델로 추정한다. 모델은 직접 경로와 반향 성분을 각각 백색 가우시안 신호로 가정하고, 지수 감쇠 파라미터 ζ를 통해 T60와 연결한다. 레이턴시 n_e를 기준으로 초기 반향과 늦은 반향을 구분하고, 각 성분의 스펙트럼 분산을 재귀적으로 업데이트한다. 파라미터 T60와 직접‑반향 비율(DRR)은 Löllmann의 최대우도법과 온라인 적응법을 통해 블라인드 추정한다. 이렇게 얻어진 사전‑사후 신호‑대‑간섭 비율(SIR)을 LSA 이득 공식에 대입해 가중치를 계산하고, G_min을 시간‑주파수 가변형으로 조정해 과도한 억제를 방지한다.
다중 마이크 환경에서는 먼저 MVDR 빔포머(공분산 행렬을 이용해 왜곡 없는 방향성 증폭) 혹은 두 채널 경우 DSB(지연 보정 후 합산)를 적용한다. 빔포밍 후 동일한 단일 채널 H‑MMSE‑LSA를 수행함으로써 공간적 잡음 억제와 시간‑주파수 기반 잔향 억제를 결합한다.
실험은 REVERB 챌린지 데이터셋을 사용했으며, 실내·실외, 다양한 T60(0.25~0.7 s)와 SNR(−6~20 dB) 조건을 포함한다. 객관적 품질 지표인 PESQ, STOI, CD에서 STFChT 기반 시스템은 STFT(짧은 윈도우) 대비 평균 0.15 PESQ, 0.07 STOI, 0.12 CD 개선을 보였다. 특히 장시간 윈도우(≈60 ms)와 STFChT를 결합했을 때 가장 큰 품질 향상이 관찰되었다. 반면 자동 음성 인식(ASR) 실험에서는 4‑채널 MVDR+STFT(길게 60 ms 윈도우) 구성이 가장 낮은 WER(≈12 %)을 기록했으며, STFChT 기반은 약 2 %p 정도 높은 WER을 보였다. 저자들은 이는 STFChT가 제공하는 장시간 일관성이 기존 ASR 모델이 기대하는 단위 시간의 스펙트럼 통계와 불일치하기 때문이라고 추정한다. 즉, 향상된 객관적 품질이 반드시 인식 성능 향상으로 이어지지는 않으며, 두 목표를 동시에 최적화하려면 STFChT 결과를 보조 특징으로 활용하거나, 인식 모델을 STFChT 특성에 맞게 재학습해야 할 가능성을 제시한다.
결론적으로, 본 연구는 STFChT를 이용해 분석 윈도우를 장시간으로 확장함으로써 잡음 및 잔향 억제에 있어 객관적 품질을 크게 향상시킬 수 있음을 입증한다. 그러나 ASR 성능에서는 기존 STFT 기반 긴 윈도우가 여전히 우수함을 확인했으며, 이는 향후 연구에서 변환 도메인과 인식 모델 간의 정합성을 고려한 설계가 필요함을 시사한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기