가우시안 모델링 기반 임계값과 PDF 의존 임계처리 함수로 노이즈 음성 향상
초록
본 논문은 Teager 에너지 연산을 적용한 지각 파형 패킷(PWP) 계수를 가우시안 분포로 모델링하고, 이를 기반으로 적응형 임계값을 계산한다. 계산된 임계값은 수정된 하드와 세미소프트 임계처리 함수를 결합한 PDF‑종속 맞춤 임계처리 함수에 적용되어 잡음이 섞인 음성을 효과적으로 복원한다. 실험은 NOIZEUS 데이터베이스의 자동차 소음 및 다중 화자 잡음 환경에서 수행했으며, 제안 방법은 기존 최첨단 기법보다 낮은 SNR에서도 객관적·주관적 평가 지표가 우수함을 보였다.
상세 분석
본 연구는 음성 향상 분야에서 흔히 사용되는 파형 변환 기반 접근법에 두 가지 혁신적인 요소를 도입한다. 첫 번째는 Teager‑Energy(TE) 연산자를 PWP 계수에 적용함으로써, 시간‑주파수 영역에서 음성의 비선형 에너지 특성을 강조한다는 점이다. TE 연산자는 신호의 순간적인 에너지 변화를 민감하게 포착하므로, 잡음이 섞인 경우에도 음성 성분과 잡음 성분 사이의 통계적 차이를 확대한다. 두 번째는 이러한 TE‑가공된 PWP 계수를 가우시안 확률밀도함수(Gaussian PDF)로 모델링하고, 그 파라미터(평균·분산)를 이용해 각 서브밴드별 적응형 임계값을 추정한다는 점이다. 기존의 고정 임계값 혹은 단순 통계량 기반 임계값 설정과 달리, 가우시안 모델링은 각 서브밴드의 신호‑잡음 비율에 따라 동적으로 임계값을 조정한다.
임계값 도출 과정은 다음과 같다. 먼저, 각 서브밴드의 TE‑가공 PWP 계수 집합을 수집하고, 이를 가우시안 분포에 적합시켜 평균 μ와 표준편차 σ를 추정한다. 이후, 잡음이 주된 서브밴드에서는 σ가 크게 증가하므로, 임계값 T는 μ와 σ의 함수 형태, 예컨대 T = μ + k·σ (k는 경험적으로 결정된 상수) 로 정의한다. 이렇게 하면 잡음이 강한 영역에서는 높은 임계값이 설정되어 잡음 성분이 효과적으로 억제되고, 음성이 강한 영역에서는 낮은 임계값이 적용돼 음성 손실을 최소화한다.
두 번째 핵심은 PDF‑종속 맞춤 임계처리 함수이다. 기존의 하드 임계값은 계수가 임계값 이하이면 0으로, 초과하면 그대로 두는 이진적 처리이며, 세미소프트 임계값은 계수를 연속적으로 축소한다. 저자들은 이 두 방식을 변형하여, 가우시안 PDF의 누적분포함수(CDF)를 가중치로 활용한다. 구체적으로, 계수 x가 임계값 T보다 작을 확률 P = Φ((x‑μ)/σ)를 계산하고, 최종 출력은
y = (1‑P)·x + P·sign(x)·max(|x|‑T,0)
와 같이 정의한다. 여기서 Φ는 표준 정규분포 CDF이며, P가 클수록 하드 임계값에 가까워지고, 작을수록 세미소프트 임계값에 가까워진다. 이 방식은 각 계수의 통계적 신뢰도에 따라 부드럽게 조정되므로, 청각적으로 자연스러운 스펙트럼을 유지하면서도 잡음 억제가 가능하다.
실험에서는 NOIZEUS 데이터베이스의 깨끗한 음성에 자동차 소음과 다중 화자 babble 잡음을 0 dB부터 15 dB까지 다양한 SNR에서 혼합하였다. 객관적 평가 지표로는 SNRseg, PESQ, STOI를 사용했으며, 주관적 평가는 ITU‑P.835 기반 청취 테스트를 수행했다. 제안 방법은 특히 저 SNR(0‑5 dB) 구간에서 PESQ 점수가 기존 방법보다 평균 0.3 ~ 0.5 dB 향상되었고, STOI 역시 5 % 이상 상승하였다. 청취 테스트 결과도 잡음 감소와 음성 자연스러움 모두에서 통계적으로 유의미한 우위를 보였다.
알고리즘 복잡도 측면에서는 PWP 변환과 TE 연산이 O(N·log N) 수준이며, 가우시안 파라미터 추정과 PDF‑종속 임계처리는 서브밴드당 상수 시간 연산으로 구현 가능하다. 따라서 실시간 처리에도 충분히 적용 가능하다는 점이 장점이다. 다만, 가우시안 모델링이 실제 잡음 분포와 완벽히 일치하지 않을 경우 임계값 설정이 부정확해질 수 있으며, 비가우시안 잡음(예: impulsive noise)에는 추가적인 모델링이 필요할 것으로 보인다.
요약하면, TE‑가공 PWP 계수의 가우시안 모델링을 통한 적응형 임계값 산출과, PDF‑종속 맞춤 임계처리 함수의 결합은 기존 고정 임계값 기반 방법보다 잡음 억제와 음성 보존 사이의 트레이드오프를 효과적으로 개선한다는 점에서 학술적·실용적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기