청각보조기용 실시간 딥 노이즈 억제 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 청각보조기(HA)에서 요구되는 8 ms 이하의 초저지연을 만족하면서 비정상적인 환경 소음까지 효과적으로 감소시키는 딥러닝 기반 노이즈 억제 방식을 제안한다. 3개의 은닉층을 가진 완전 연결 신경망이 비대칭적인 과거·미래 컨텍스트(≈200 ms 과거, 2 ms 미래)를 입력으로 받아 Wiener 필터 이득을 예측하고, 청각보조기 전용 48채널 필터뱅크와 결합해 실시간 온라인 처리에 적합하도록 설계되었다. 실제 현장 소음과 독일어 문장을 혼합한 데이터셋을 이용한 실험에서, 기존의 재귀 최소 추적 기반 알고리즘을 객관 지표(STOI, NR, SD)와 주관 청취 테스트(MUSHRA) 모두에서 능가함을 확인하였다.

상세 분석

이 연구는 청각보조기 시스템이 직면한 두 가지 핵심 제약—극히 짧은 전체 지연(≤8 ms)과 제한된 연산·전력 자원—을 동시에 만족시키는 노이즈 억제 방법을 설계했다는 점에서 의미가 크다. 먼저, 입력 전처리 단계에서 청각보조기용으로 설계된 48채널 균일 폴리페이즈 필터뱅크(AFB)를 사용해 시간‑주파수 영역으로 변환한다. 이는 기존의 스펙트럼 기반 접근보다 하드웨어 구현이 용이하고, 각 채널에 대한 독립적인 이득 적용이 가능해 다른 HA 알고리즘(예: 자동 이득 제어)과의 연동이 자연스럽다.

네트워크 구조는 3개의 은닉층에 각각 2048개의 뉴런을 배치한 완전 연결(FC) 형태이며, 활성화 함수로 ReLU를 사용한다. 중요한 설계 포인트는 ‘비대칭적 시간 컨텍스트’를 도입한 점이다. 과거 프레임을 최대 200 ms까지(τ₁) 활용하고, 미래 프레임은 2 ms(τ₂)만을 참조하도록 제한함으로써 전체 지연을 8 ms 이하로 유지한다. 실험 결과, τ₁이 200 ms 이상일 때 RMSE 손실이 현저히 감소하고, 이는 인간 음성의 평균 실러블 주기(≈4 Hz)와 일치한다는 점에서 음성 구조를 충분히 포착한다는 해석이 가능하다.

정규화 단계에서는 프레임별 평균 µ와 표준편차 σ를 실시간 버퍼 내에서 계산해 입력 스펙트럼을 정규화한다. 이는 전역 통계가 필요 없으므로 온라인 처리에 적합하고, 다양한 입력 레벨에 대한 일반화 능력을 향상시킨다.

학습은 49개의 실제 환경 소음(비정상적 포함)과 260개의 독일어 문장을 24 kHz로 업샘플링해 만든 혼합 데이터셋을 사용했으며, SNR을 -10 dB부터 20 dB까지 균등하게 배분하였다. 데이터 증강으로는 최대 4개의 소음을 서로 다른 오프셋으로 결합해 노이즈 다양성을 높였다. 최적화는 Adam(learning rate = 1e‑5)으로 10 epoch 동안 진행했으며, GPU(Nvidia Titan Xp)에서 TensorFlow 기반으로 구현했다.

성능 평가에서는 객관 지표인 STOI, Noise Reduction(NR), Speech Distortion(SD)를 사용했다. DNN 기반 방법은 저 SNR 구간에서 STOI 향상이 거의 없었지만, 0 dB 이상에서는 점진적으로 개선되어, 기존 재귀 최소 추적 방식보다 평균적으로 0.05~0.15 STOI 포인트가 높았다. 또한 NR은 약 2 dB 정도 더 크게 감소하면서 SD는 0.5 dB 이하로 낮아, 잡음 억제와 음성 왜곡 사이의 트레이드오프를 더 유리하게 만든다.

주관 청취 테스트는 MUSHRA 방식을 채택했으며, 20명의 청각 전문가가 12 초 길이의 4가지 SNR 조건(−5, 0, 5, 10 dB)에서 5개의 처리 결과(원본, 기준 재귀 최소 추적, 이상적인 Wiener, DNN, 앵커)를 평가했다. 결과는 DNN이 평균 70~85점(0‑100 스케일)으로 기준보다 현저히 높은 점수를 받았으며, 5 dB와 10 dB 조건에서는 이상적인 Wiener와 거의 동등한 ‘천장 효과’를 보였다. 이는 실제 청취 환경에서도 제안된 모델이 실용적인 수준의 음질을 제공함을 의미한다.

한계점으로는 현재 48채널 고정 필터뱅크와 3‑layer FC 구조가 다른 하드웨어(예: 저전력 MCU)에서 구현 가능성을 검증하지 않았으며, 비정상 소음의 종류가 제한적(주로 유럽 환경)이라는 점이 있다. 또한, 실시간 지연을 8 ms 이하로 유지하기 위해 미래 프레임을 최소화했지만, 이는 급격히 변하는 소음에 대한 선제적 대응 능력을 제한할 수 있다. 향후 연구에서는 경량화된 CNN 또는 RNN 기반 구조와, 다양한 언어·문화권 소음 데이터셋을 활용한 일반화 검증이 필요하다.

청각보조기용 실시간 딥 노이즈 억제 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기