맞춤형 보조 센서 기반 청취 기기 음성 강화
초록
본 논문은 착용형 청취 기기에서 사용자의 목소리를 잡음과 방해 말소리로부터 분리하기 위해 두 가지 접근법, 즉 개인화된 음성 강화(PSE)와 보조 센서 기반 음성 강화(AS‑SE)를 비교한다. 두 방법을 결합한 PAS‑SE가 가장 높은 성능을 보이며, 특히 인이어 마이크로폰으로 수집한 등록 음성을 활용할 때 교차 데이터셋에서도 강인한 일반화 능력을 나타낸다.
상세 분석
이 연구는 착용형 청취 기기에 장착된 외부 마이크와 인이어 마이크 두 개의 신호를 활용한다. 신호 모델은 외부 마이크와 인이어 마이크 각각에 사용자 음성(S_o, S_i), 환경 잡음(N_o, N_i), 방해 말소리(V_o, V_i)가 합성된 형태로 정의된다. 기존 단일 채널 SE는 잡음 제거에는 강하지만 방해 말소리 억제에는 한계가 있다. 이를 극복하기 위해 두 가지 전략을 제시한다. 첫 번째는 개인화된 음성 강화(PSE)로, 사용자의 사전 등록 발화(Enrollment)에서 추출한 스피커 임베딩을 조건으로 사용해 목표 화자를 구분한다. 두 번째는 보조 센서 기반 음성 강화(AS‑SE)로, 인이어 마이크의 신호를 추가 입력으로 사용해 신호‑대‑잡음비(SNR)가 높은 사용자 음성을 보조 정보로 활용한다.
시스템 아키텍처는 기존 FT‑JNF 모델을 기반으로 하며, 주파수 차원 LSTM(F‑LSTM)과 시간 차원 LSTM(T‑LSTM)을 결합한 구조에 선형 레이어와 tanh 활성화를 추가한다. 출력 마스크 M(k,l)은 외부 마이크의 복합 신호에 곱해져 향상된 음성을 복원한다. PSE와 PAS‑SE에서는 스피커 인코더(시간 도메인 SpeakerBeam 기반)를 도입해 128 차원의 임베딩을 추출하고, 이를 F‑LSTM 출력과 곱셈 방식으로 결합해 다중 조건화(multiplicative conditioning)를 구현한다.
학습 단계에서는 인이어 마이크에 잡음 및 방해 말소리가 실제로 존재하지 않는 Vibriavox 데이터의 한계를 보완하기 위해 네 가지 데이터 증강 방식을 제안한다. (A) 외부 마이크에만 잡음·방해를 추가, 인이어 마이크는 깨끗하게 유지; (B) 양쪽 마이크에 잡음만 추가, 방해는 제외; (C) 양쪽 마이크에 잡음 추가 후 외부 마이크에만 방해 말소리 삽입; (D) (C)와 유사하지만 인이어 마이크의 방해 말소리를 외부 마이크 방해의 감쇠 버전(a·V_o)으로 근사한다. 실험 결과, 인이어 마이크에 잡음 누수를 모델링한 (B), (C), (D) 방식이 (A)보다 현저히 높은 SI‑SDR 및 PESQ 향상을 보였으며, 특히 (C)와 (D)에서 방해 억제 성능 차이는 미미했다.
평가에서는 Vibriavox와 Oldenburg 두 공개 데이터셋을 사용해 인‑도메인 및 교차‑도메인 성능을 측정했다. PSE와 AS‑SE 모두 잡음 감소에서는 좋은 성능을 보였지만, 방해 말소리 억제에서는 각각의 한계가 있었다. PAS‑SE는 두 접근법을 결합함으로써 방해 억제와 잡음 감소 모두에서 시너지 효과를 나타냈으며, 특히 인이어 마이크로 녹음된 등록 음성을 사용할 때 SI‑SDR이 0.6 dB 이상 향상되었다. 교차‑도메인 실험에서도 PAS‑SE가 가장 안정적인 성능을 유지했으며, 시간 도메인 기반 SpeakerBeam보다 주파수 도메인 STFT 특성을 활용한 FT‑JNF가 데이터셋 간 편향에 덜 민감함을 확인했다. 또한, 등록 음성에 잡음이 섞여 있는 경우에도 PAS‑SE는 여전히 AS‑SE보다 우수한 성능을 유지한다는 점에서 실용적인 강인성을 입증했다.
이 논문은 (1) 개인화와 보조 센서 정보를 동시에 활용하는 새로운 프레임워크를 제시하고, (2) 제한된 인이어 데이터 환경에서 효과적인 학습을 위한 데이터 증강 전략을 제안하며, (3) 실제 착용형 디바이스에 적용 가능한 경량 모델(≈1.4 M 파라미터)로 구현했다는 점에서 청취 기기용 실시간 음성 강화 연구에 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기