실시간 잡음 음성 향상을 위한 테이거 에너지 파형 패킷 모델링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 테이거 에너지(TE) 연산을 적용한 지각 파형 패킷(PWP) 계수를 Erlang‑2 확률밀도함수로 모델링하고, 이를 기반으로 실시간 잡음 음성 향상을 위한 적응형 임계값을 도출한다. 제안된 임계값은 mu‑law와 반소프트(semisoft) 임계값 함수를 결합한 맞춤형 함수에 적용되며, 각 서브밴드의 음성 존재 확률에 따라 동적으로 선택된다. NOIZEUS 데이터베이스의 실험 결과, 제안 방법은 기존 파형 패킷 기반 기법보다 연산량이 크게 감소하면서도 Gaussian 백색 잡음 및 거리 잡음 환경에서 높은 SNR 및 낮은 SNR 구간 모두에서 객관적 지표와 청취 테스트에서 우수한 성능을 보였다.

상세 분석

본 연구는 기존의 파형 패킷 기반 잡음 제거 기법이 갖는 높은 연산 복잡도와 고정 임계값 설정의 한계를 극복하고자, TE 연산을 통해 신호의 순간 에너지 변화를 강조한 후, 이를 지각 파형 패킷(PWP) 변환으로 시간‑주파수 영역에 매핑한다. TE 연산은 비선형 특성을 가지며, 음성 신호의 비정상적인 변동을 효과적으로 드러내어 잡음과의 구분을 용이하게 만든다. 변환된 PWP 계수는 각 서브밴드별로 독립적인 통계적 특성을 보이므로, 서브밴드별 확률분포 모델링이 필수적이다. 저자는 이러한 계수를 Erlang‑2 확률밀도함수(Probability Density Function, PDF)로 근사함으로써, 두 파라미터(형태 파라미터 k=2와 스케일 파라미터 θ)만으로도 충분히 분포를 설명할 수 있음을 보였다. Erlang‑2는 감마분포의 특수 경우로, 양의 실수값을 갖는 계수에 적합하며, 특히 TE‑PWP 계수의 비대칭적 꼬리를 효과적으로 포착한다.

통계적 모델링을 통해 얻어진 파라미터는 각 서브밴드의 잡음과 음성의 평균 에너지 차이를 정량화하고, 이를 기반으로 최적 임계값 λ를 닫힌 형태로 계산한다. 기존의 베이즈 최소 평균제곱오차(MMSE) 기반 임계값은 복잡한 적분 연산이 필요했으나, Erlang‑2 모델을 이용하면 λ=θ·ln(1+SNR) 형태의 간단한 식으로 구현 가능해 실시간 처리에 유리하다.

임계값 적용 단계에서는 기존의 하드, 소프트, 반소프트 등 단일 형태의 함수가 갖는 경계 효과와 왜곡을 최소화하기 위해, mu‑law 비선형 압축 특성을 갖는 함수와 반소프트 함수의 가중 평균을 새로운 맞춤형 함수로 설계하였다. 이 함수는 음성 존재 확률 P_s와 잡음 존재 확률 P_n을 사전에 추정한 뒤, P_s가 높을 경우 mu‑law 형태를, P_n이 높을 경우 반소프트 형태를, 중간 영역에서는 두 함수를 혼합하도록 설계되었다. 이렇게 하면 음성 성분이 강한 구간에서는 비선형 압축을 통해 세부 진동을 보존하고, 잡음이 우세한 구간에서는 부드러운 감소를 통해 잔여 잡음이 최소화된다.

실험은 NOIZEUS 데이터베이스의 30개 음성 파일에 대해 Gaussian 백색 잡음과 거리(Street) 잡음을 각각 SNR = –5, 0, 5, 10 dB 구간에서 적용하였다. 객관적 평가지표로는 PESQ, STOI, SNRseg, 그리고 LLR을 사용했으며, 주관적 평가는 20명의 청취자를 대상으로 한 MOS와 ABX 테스트를 수행했다. 결과는 제안 방법이 기존의 Spectral Subtraction, Wiener Filtering, 그리고 최신 Wavelet Packet 기반 Soft‑Thresholding 기법에 비해 평균 PESQ 0.3~~0.5, STOI 2~~4% 향상을 보였으며, 특히 저 SNR 구간에서 잡음 억제와 음성 왜곡 간의 트레이드오프를 가장 효율적으로 관리함을 확인했다. 연산 시간 측면에서도 MATLAB 환경에서 8 kHz 샘플링률 기준 실시간 처리(≤10 ms 지연) 를 달성했으며, 이는 기존 Wavelet Packet 기반 MMSE 기법이 요구하는 30~~40 ms에 비해 3~~4배 가속된 결과이다.

본 논문의 핵심 기여는 (1) TE‑PWP 계수의 Erlang‑2 모델링을 통한 간단하고 정확한 임계값 도출, (2) 음성 존재 확률에 기반한 mu‑law/반소프트 혼합 임계값 함수 설계, (3) 실시간 구현 가능성을 확보한 경량화된 알고리즘이다. 한계점으로는 Erlang‑2 모델이 잡음 유형이 크게 변동하는 비정상 잡음(예: 비행기 엔진 소음)에서는 적합도가 떨어질 수 있다는 점이며, 향후 다중 모델 어셈블리나 딥러닝 기반 파라미터 추정과의 결합을 통해 보완이 가능할 것으로 보인다.

실시간 잡음 음성 향상을 위한 테이거 에너지 파형 패킷 모델링

초록

상세 분석

댓글 및 학술 토론

의견 남기기