단일 마이크 음성 향상을 위한 STOI 기반 딥러닝

본 논문은 단일 마이크 음성 향상(DNN‑SE) 시스템을 설계하여 STOI(Short‑Time Objective Intelligibility) 측정값의 근사치를 최대화하는 새로운 비용 함수(E​LC)를 도입한다. 근사 STOI를 직접 최적화하도록 DNN을 학습시키고, 이를 기존 MSE 기반 방법과 비교 실험을 통해 인식 가능성 향상 효과를 검증한다. 실험 결과, 제안 방식은 다양한 잡음 유형과 SNR 조건에서 기존 방법과 동등하거나 약간 우수한…

저자: Morten Kolb{ae}k, Zheng-Hua Tan, Jesper Jensen

본 논문은 단일 마이크 환경에서 음성 신호를 잡음으로부터 복원하는 딥러닝 기반 음성 향상 시스템을 설계하고, 인간 청각의 인식 가능성을 직접 목표 함수에 반영하려는 새로운 접근법을 제시한다. 기존의 DNN‑SE 시스템은 주로 STFT 영역에서 평균 제곱 오차(MSE)를 최소화하는 방식으로 설계되어 왔으며, 이는 음성 품질 향상에는 효과적이지만 인식 가능성( intelligibility)과는 직접적인 연관성이 부족했다. 이에 저자들은 청각적 인식 가능성을 객관적으로 측정하는 STOI(Short‑Time Objective Intelligibility) 지표를 근사화한 Envelop Linear Correlation(ELC) 손실 함수를 도입한다. 먼저, 10 kHz 샘플링 레이트와 256‑point STFT(윈도우 길이 25.6 ms, 프레임 쉬프트 12.8 ms)를 사용해 시간‑주파수 스펙트럼을 얻는다. 이후 한‑삼분음 옥타브 필터뱅크(J = 15)를 적용해 각 옥타브 밴드별로 에너지 합을 구하고, N = 30(≈384 ms) 길이의 시간적 envelope 벡터를 만든다. STOI는 원래 클리핑 단계와 여러 정규화를 포함하지만, 실험적으로 클리핑을 생략해도 성능 저하가 거의 없으므로 이를 제외하고 두 벡터 간의 코사인 유사도 형태인 ELC를 비용 함수로 정의한다. ELC는 두 벡터의 평균을 뺀 뒤 내적을 각 벡터의 ‖·‖₂로 정규화한 값으로, -1에서 1 사이의 값을 갖는다. 저자들은 ELC에 대한 미분식 ∇L을 직접 유도하고, 그 ‖∇L‖₂가 L에 따라 어떻게 변하는지를 분석한다. 구체적으로 ‖∇L‖₂ = √(1 − L²)·‖x̂‖⁻¹ 로, L이 0에 가까울수록 기울기가 가장 크게 나타나 학습 초기 단계에서 충분한 업데이트가 가능하고, 최적점(L = ±1)에서는 기울기가 0이 되어 수렴을 보장한다. 이러한 특성은 SGD와 같은 경사 하강법에 매우 적합하며, 실제 학습에서는 -L을 최소화하는 형태로 구현한다. 모델은 각 옥타브 밴드마다 별도의 피드포워드 DNN을 학습시킨다. 각 DNN은 입력으로 해당 옥타브 밴드의 noisy envelope 벡터를 받고, 출력으로 gain 벡터를 예측한다. 네트워크는 3개의 은닉층(512 유닛, ReLU)과 시그모이드 출력층으로 구성되며, 배치 정규화와 SGD를 사용한다. 학습률은 ELC 기반 모델에 0.01, MSE 기반 모델에 5 × 10⁻⁵을 초기값으로 두고, 검증 손실이 상승하면 0.7배씩 감소시키는 스케줄을 적용한다. 최대 200 epoch까지 학습하고, 학습률이 10⁻¹⁰ 이하가 되면 조기 종료한다. 실험 데이터는 WSJ0 말뭉치에서 44명 남성·47명 여성 화자를 무작위 추출해 훈련(20 시간)·검증(4 시간)·테스트(2 시간) 세트로 구성한다. 잡음은 합성 SSN(정적)·BBL(비정적)와 CHiME3에서 추출한 실제 환경 잡음 STR, CAF, BUS, PED 총 6종을 사용한다. 각 잡음은 40 분 훈련, 5 분 검증, 5 분 테스트 구간으로 나누어 겹치지 않게 만든다. SNR은 -5 dB부터 10 dB까지 균등하게 샘플링한다. 비용 함수와 잡음 종류에 따라 총 10개의 모델을 학습한다. S0‑S4는 ELC 손실, S5‑S8은 Envelope MSE(EMSE) 손실을 사용하며, 각각 SSN, BBL, CAF, STR 전용 모델이다. S4와 S9는 모든 잡음을 혼합해 학습한 일반 모델이다. 평가 지표는 ELC와 STOI이며, ELC는 옥타브 밴드 envelope 벡터 수준에서, STOI는 최종 시간 도메인 복원 음성에 대해 계산한다. 결과는 다음과 같다. 모든 모델이 원본(noisy) 대비 ELC를 평균 0.15‑0.20, STOI를 0.07‑0.13 정도 향상시켰다. 특히 ELC 손실 모델은 EMSE 손실 모델보다 약간 높은 ELC·STOI 점수를 기록했으며, 전 잡음 통합 모델도 전용 모델에 근접한 성능을 보였다. 또한, 전통적인 STSA‑DNN(Short‑Time Spectral Amplitude)과 비교했을 때 제안된 STOI‑최적화 DNN은 유사한 STOI 개선을 달성했으며, 이는 STSA‑DNN이 이미 인식 가능성 측면에서 거의 최적에 가깝다는 실험적 증거를 제공한다. 논문의 주요 기여는 (1) STOI를 직접 최적화하는 근사 손실 함수를 수학적으로 유도하고, 그 기울기 특성을 분석해 학습 안정성을 확보한 점, (2) 실제 다양한 잡음·SNR 조건에서 기존 MSE 기반 방법과 동등하거나 약간 우수한 인식 가능성 향상을 실증한 점, (3) 전통적인 STSA‑DNN이 인식 가능성 측면에서 최적에 가깝다는 새로운 인사이트를 제공한 점이다. 향후 연구에서는 LSTM·CNN 등 더 복잡한 네트워크 구조와 대규모 데이터셋을 적용해 성능 한계를 탐색하고, 실시간 구현 및 청각 보조 기기에 적용 가능성을 검증할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기