깨우는 순간 바로 등록, 실시간 타깃 음성 추출 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 웨이크워드 구간을 즉시 등록 음성으로 활용하는 Enroll‑on‑Wakeup(EoW) 프레임워크를 제안한다. 사전 녹음이 필요 없는 자연스러운 대화 환경에서 타깃 음성 추출(TSE) 성능을 평가하고, 짧고 잡음이 섞인 웨이크워드에 대해 LLM 기반 텍스트‑투‑스피치(TTS) 보강을 적용한다. 실험 결과, 기존 TSE 모델은 EoW 상황에서 성능 저하가 나타나지만, TTS 보강을 통해 청취 품질과 인식 정확도가 크게 향상됨을 확인하였다.

상세 분석

본 연구는 기존 타깃 음성 추출(TSE) 시스템이 사전에 고품질의 등록 음성을 필요로 하는 한계를 극복하고자, 사용자가 기기를 깨우는 순간 발화되는 웨이크워드 자체를 자동 등록(reference) 신호로 활용하는 Enroll‑on‑Wakeup(EoW) 개념을 도입하였다. 이는 사용자 경험을 크게 개선할 뿐 아니라, 실시간 인간‑기계 대화 시나리오에서 사전 준비 없이도 TSE 기능을 제공할 수 있다는 점에서 혁신적이다.

EoW‑TSE의 핵심 과제는 웨이크워드가 일반적으로 짧고, 배경 소음, 마이크 특성, 발화자 변동성 등에 의해 품질이 크게 저하된다는 점이다. 이러한 저품질 등록 신호는 기존의 discriminative 모델(예: Conv-TasNet 기반, Dual‑Path RNN)과 generative 모델(예: diffusion‑based, VAE‑GAN) 모두에서 스피커 특성 추출 정확도를 떨어뜨린다. 논문은 이를 보완하기 위해 두 가지 전략을 제시한다. 첫째, 웨이크워드 구간을 전처리하여 음성 활동 검출, 노이즈 억제, 길이 보강을 수행한다. 둘째, 대규모 언어 모델(LLM) 기반 텍스트‑투‑스피치(TTS) 엔진을 활용해, 짧은 웨이크워드 텍스트를 입력으로 고품질 합성 음성을 생성하고, 이를 원본 웨이크워드와 결합(데이터 증강)한다. 이 과정에서 음성 스타일 전이와 파라미터 튜닝을 통해 원본 발화자의 음성 특성을 최대한 보존하도록 설계하였다.

실험은 실제 서비스 환경을 모사한 12시간 분량의 다채로운 잡음 조건(카페, 거리, 차량, 사무실)과 5명의 서로 다른 화자를 포함한 데이터셋을 구축하고, 기존 TSE 베이스라인과 비교하였다. 주요 평가지표는 SI‑SDR, PESQ, STOI, 그리고 최종 ASR(WER)이다. 결과는 다음과 같다. (1) 순수 EoW‑TSE는 사전 등록 대비 평균 SI‑SDR이 2.8 dB 감소하고, WER이 12 % 상승하였다. (2) TTS 보강을 적용한 경우, SI‑SDR 회복이 1.9 dB, PESQ가 0.4점 향상되었으며, WER 감소가 7 % 포인트에 달했다. (3) 특히 generative diffusion 모델은 노이즈에 강인한 특성을 보여, TTS 보강 없이도 상대적으로 낮은 성능 저하를 보였다.

한계점으로는 TTS 합성 과정에서 발생하는 음성‑텍스트 불일치, 합성 음성의 인위적인 특성, 그리고 실시간 처리 지연이 있다. 또한, 현재 LLM‑TTS는 대규모 GPU 자원을 요구하므로, 모바일 디바이스에 직접 적용하기에는 비용 효율성이 낮다. 향후 연구에서는 경량화된 TTS 모델, 멀티‑모달(영상‑음성) 보강, 그리고 사용자 개인화된 적응 학습을 통해 EoW‑TSE의 실용성을 더욱 높일 필요가 있다.

깨우는 순간 바로 등록, 실시간 타깃 음성 추출 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기