비정상 잡음 기반 기하학적 스펙트럼 차감 및 위상 보정 기반 음성 향상
초록
본 논문은 저주파 영역의 현재 프레임 정보를 이용해 비정상 잡음을 실시간으로 추정하고, 이를 기하학적 스펙트럼 차감(GA)과 위상 스펙트럼 보정에 결합하여 음성 신호를 향상시키는 방법을 제안한다. 제안 기법은 NOIZEUS 데이터베이스의 거리·잡음 환경에서 기존 최신 기법들을 능가하는 객관적 지표와 주관적 청취 평가 결과를 보인다.
상세 분석
이 연구는 전통적인 기하학적 접근(Geometric Approach, GA) 기반 스펙트럼 차감이 초기 무음 구간에만 의존해 비정상 잡음에 취약하다는 한계를 극복하고자 한다. 저자들은 먼저 짧은 시간 푸리에 변환(STFT)으로 입력 신호를 프레임화하고, 각 프레임의 저주파 대역(0~300 Hz)을 잡음 추정에 활용한다. 이 대역은 인간 음성의 에너지가 상대적으로 낮아 잡음 성분이 지배적이라는 가정에 기반한다. 따라서 현재 프레임의 저주파 파워 스펙트럼을 평균화하고, 이를 기존 초기 무음 기반 잡음 추정치와 가중 평균함으로써 시간에 따라 변하는 비정상 잡음 모델을 실시간으로 업데이트한다.
업데이트된 잡음 스펙트럼 N̂(k, m)은 기존 GA 식인
|X̂(k,m)| = √(|Y(k,m)|² + |N̂(k,m)|² – 2|Y(k,m)||N̂(k,m)|cosθ)
에 대입되어 magnitude 보정에 사용된다. 여기서 Y(k,m)는 noisy speech의 복소 스펙트럼, θ는 Y와 N̂ 사이의 위상 차이다. GA 단계에서 위상은 그대로 유지되며, 보정된 magnitude |X̂|와 원래 위상 ∠Y를 결합해 임시 복소 스펙트럼 Z(k,m)를 만든다.
그 다음 단계는 위상 스펙트럼 보정(Phase Spectrum Compensation, PSC)이다. 저자들은 Z(k,m)의 위상을 기존 위상과 차분하여 위상 오류를 최소화하는 보정 함수를 정의한다. 구체적으로,
∠X̂(k,m) = ∠Z(k,m) – α·Im{Z(k,m)·N̂*(k,m)} / |Z(k,m)|²
와 같이 잡음과의 상관관계를 이용해 위상을 조정한다. α는 실험적으로 설정된 스케일 파라미터이며, 이 과정은 복소 스펙트럼 전체의 위상 일관성을 회복시켜 음성의 자연스러운 톤과 명료성을 유지한다.
마지막으로 보정된 복소 스펙트럼을 역STFT로 변환해 시간 도메인 음성을 재구성한다. 실험에서는 NOIZEUS 데이터베이스의 30개 문장을 사용해 거리 잡음(street)과 사람 잡음(babble) 각각 SNR = 0, 5, 10 dB에서 평가하였다. 객관적 지표인 PESQ, STOI, SNRseg에서 기존 MMSE‑Log, OMLSA, 그리고 최신 DNN‑기반 방법보다 평균 0.150.30 PESQ 점수와 58 % STOI 향상을 기록했다. 또한, 주관적 청취 테스트(MOS)에서도 4.2 점(5점 만점) 이상의 높은 점수를 얻어 실용적 가치를 입증하였다.
핵심 기여는 (1) 저주파 기반 실시간 비정상 잡음 추정, (2) GA와 PSC를 순차적으로 결합한 복합 보정 프레임워크, (3) 잡음 추정과 위상 보정이 상호 보완적으로 작용해 전통적인 magnitude‑only 접근의 한계를 극복한다는 점이다. 이 방법은 계산 복잡도가 비교적 낮아 실시간 통신 시스템이나 모바일 디바이스에 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기