스마트폰 기반 맞춤형 초가우시안 단일 마이크 음성 향상 기술

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 초가우시안 JMAP(SGJMAP) 기반의 단일 마이크 음성 향상 알고리즘에 ‘트레이드오프’ 파라미터를 도입하여, 사용자가 실시간으로 잡음 억제와 음성 왜곡 사이의 균형을 조절할 수 있게 한다. 구현은 iPhone 7에서 수행했으며, 객관적 지표(PESQ, STOI)와 주관적 MOS 실험을 통해 기존 JMAP·SGJMAP 대비 향상된 품질과 청취 편의성을 확인하였다.

상세 분석

본 연구는 청각 보조기기의 연산 한계를 극복하기 위해 스마트폰을 외부 마이크 및 신호 처리 플랫폼으로 활용한다는 점에서 실용적 의의를 가진다. 핵심 이론은 기존 JMAP(Joint Maximum A Posteriori) 추정에 초가우시안 확률 모델을 적용한 SGJMAP을 기반으로 한다. 음성 스펙트럼의 크기 성분을 초가우시안 분포(p(·; μ, ν))로 모델링하고, 잡음은 가우시안으로 가정함으로써 사후 확률을 도출한다. 기존 SGJMAP의 이득 함수 G(·)는 사전 SNR(ξ)와 사후 SNR(γ) 그리고 초가우시안 파라미터(μ, ν)에만 의존한다. 그러나 실제 환경에서는 방음 조건, 반향, 잡음 종류에 따라 ξ의 추정이 부정확해지며, 이로 인해 과도한 왜곡이나 잔음이 발생한다.

이를 보완하기 위해 저자는 비용 함수의 로그 형태에 ‘트레이드오프’ 파라미터 β를 곱해 새로운 최적화 방정식을 유도하였다. β가 0에 가까울수록 이득 함수는 ξ에 대한 의존도가 감소해 잡음 억제는 약해지지만 음성 왜곡은 최소화된다. 반대로 β가 크게 설정되면 이득이 급격히 감소해 잡음은 크게 억제되지만 음성 스펙트럼도 함께 감쇠한다. 파라미터 β는 실시간 UI 슬라이더로 제공되어 사용자가 청취 상황에 맞게 직관적으로 조절할 수 있다.

수식 전개는 (9)~~(12) 단계에서 로그-우도 미분 후 0으로 설정하고, 2차 방정식을 풀어 최종 이득 Gβ(·)를 얻는다. 이때 μ와 ν는 사전 실험을 통해 각각 0.5~~3, 0.0~~1 범위로 고정하고, β는 0.1~~5 사이에서 자유롭게 변한다. 알고리즘 흐름은 프레임당 FFT → 크기·위상 분리 → Gβ 적용 → 역FFT 순으로 구현되며, 위상은 원본 잡음 위상을 그대로 사용한다(위상 왜곡이 청각 인식에 미치는 영향이 미미함을 근거로).

계산 복잡도는 10 ms 프레임당 1.4 ms 처리 시간(480 샘플)으로, 스마트폰 실시간 실행에 충분히 가벼우며 배터리 소모도 6.3 시간 연속 사용을 가능하게 한다. 또한, VAD 기반 잡음 파워 초기 추정(2 초) 후 β, μ, ν를 동적으로 업데이트함으로써 환경 변화에 대한 적응성을 확보한다.

실험에서는 기계음, 다중 화자 babble, 교통 소음 세 종류에 대해 -5, 0, 5 dB SNR에서 PESQ와 STOI를 측정하였다. β를 최적화한 결과, 기존 JMAP·SGJMAP 대비 PESQ 평균 0.3~~0.5 점 상승, STOI는 특히 교통 소음에서 0.07~~0.09 향상을 보였다. 주관적 MOS 실험(15명)에서도 사용자가 직접 β·μ·ν를 조정한 뒤 평균 4.1점(5점 만점) 이상의 평가를 받으며, 개인별 선호도가 크게 달라 β 조정의 필요성을 실증하였다.

종합적으로, 초가우시안 모델에 실시간 가중치 β를 도입함으로써 잡음 억제와 음성 왜곡 사이의 트레이드오프를 사용자 주도형으로 전환했으며, 이는 연산량이 적고 학습이 필요 없는 모델 기반 SE가 청각 보조기기에 적용될 수 있는 현실적인 경로를 제시한다.

스마트폰 기반 맞춤형 초가우시안 단일 마이크 음성 향상 기술

초록

상세 분석

댓글 및 학술 토론

의견 남기기