장시간 윈도우와 팬칩 변환을 이용한 잡음 및 잔향 음성 향상

본 논문은 기존의 짧은 STFT 프레임이 갖는 비정상성 한계를 극복하고, 장시간 분석 윈도우를 활용함으로써 잡음 및 잔향이 섞인 음성을 효과적으로 향상시키는 새로운 프레임워크를 제안한다. 핵심 아이디어는 단시간 팬칩 변환(STFChT)을 사용해 음성 신호와 더 높은 시간‑주파수 일관성을 확보하는 것이다. STFChT는 시간 축을 비선형적으로 왜곡한 뒤 FFT를 수행하는 방식으로, 분석 윈도우를 왜곡 전 적용함으로써 윈도우 자체의 스미어링을 방지한다. 이때 각 프레임마다 최적의 챕 레이트 α를 GLogS(조화 로그 스펙트럼) 기반으로 추정한다. GLogS는 각 프레임의 기본 주파수 f0와 그 배음들을 고려해 로그 스펙트럼을 집계한 것으로, α를 조정하면 음성의 조화 구조가 가장 잘 정렬된 변환을 얻을 수 있다. 결과적으로 동일한 윈도우 길이에서도 STFChT는 STFT보다 스펙트럼 에너지가 더 좁은 bin에 집중되며, 이는 각 bin의 신호‑대‑잡음 비율(SNR)을 상승시켜 과도한 억제를 방지한다. 음성 향상 단계에서는 Habets가 제안한 MMSE‑LSA 변형(H‑MMSE‑LSA)을 적용한다. 이 알고리즘은 잡음뿐 아니라 늦은 잔향을 통계적 모델로 추정한다. 모델은 직접 경로와 반향 성분을 각각 백색 가우시안 신호로 가정하고, 지수 감쇠 파라미터 ζ를 통해 T60와 연결한다. 레이턴시 n_e를 기준으로 초기 반향과 늦은 반향을 구분하고, 각 성분의 스펙트럼 분산을 재귀적으로 업데이트한다. 파라미터 T60와 직접‑반향 비율(DRR)은 Löllmann의 최대우도법과 온라인 적응법을 통해 블라인드 추정한다. 이렇게 얻어진 사전‑사후 신호‑대‑간섭 비율(SIR)을 LSA 이득 공식에 대입해 가중치를 계산하고, G_min을 시간‑주파수 가변형으로 조정해 과도한 억제를 방지한다. 다중 마이크 환경에서는 먼저 MVDR 빔포머(공분산 행렬을 이용해 왜곡 없는 방향성 증폭) 혹은 두 채널 경우 DSB(지연 보정 후 합산)를 적용한다. 빔포밍 후 동일한 단일 채널 H‑MMSE‑LSA를 수행함으로써 공간적 잡음 억제와 시간‑주파수 기반 잔향 억제를 결합한다. 실험은 REVERB 챌린지 데이터셋을 사용했으며, 실내·실외, 다양한 T60(0.25~0.7 s)와 SNR(−6~20 dB) 조건을 포함한다. 객관적 품질 지표인 PESQ, STOI, CD에서 STFChT 기반 시스템은 STFT(짧은 윈도우) 대비 평균 0.15 PESQ, 0.07 STOI, 0.12 CD 개선을 보였다. 특히 장시간 윈도우(≈60 ms)와 STFChT를 결합했을 때 가장 큰 품질 향상이 관찰되었다. 반면 자동 음성 인식(ASR) 실험에서는 4‑채널 MVDR+STFT(길게 60 ms 윈도우) 구성이 가장 낮은 WER(≈12 %)을 기록했으며, STFChT 기반은 약 2 %p 정도 높은 WER을 보였다. 저자들은 이는 STFChT가 제공하는 장시간 일관성이 기존 ASR 모델이 기대하는 단위 시간의 스펙트럼 통계와 불일치하기 때문이라고 추정한다. 즉, 향상된 객관적 품질이 반드시 인식 성능 향상으로 이어지지는 않으며, 두 목표를 동시에 최적화하려면 STFChT 결과를 보조 특징으로 활용하거나, 인식 모델을 STFChT 특성에 맞게 재학습해야 할 가능성을 제시한다. 결론적으로, 본 연구는 STFChT를 이용해 분석 윈도우를 장시간으로 확장함으로써 잡음 및 잔향 억제에 있어 객관적 품질을 크게 향상시킬 수 있음을 입증한다. 그러나 ASR 성능에서는 기존 STFT 기반 긴 윈도우가 여전히 우수함을 확인했으며, 이는 향후 연구에서 변환 도메인과 인식 모델 간의 정합성을 고려한 설계가 필요함을 시사한다.

장시간 윈도우와 팬칩 변환을 이용한 잡음 및 잔향 음성 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기