“깨우는 순간 바로 등록! 실시간 웨이크‑워드 기반 타깃 스피치 추출(EoW‑TSE) 최초 종합 평가”

읽는 시간: 8 분
...

📝 Abstract

Target speech extraction (TSE) typically relies on pre-recorded high-quality enrollment speech, which disrupts user experience and limits feasibility in spontaneous interaction. In this paper, we propose Enroll-on-Wakeup (EoW), a novel framework where the wake-word segment, captured naturally during human-machine interaction, is automatically utilized as the enrollment reference. This eliminates the need for pre-collected speech to enable a seamless experience. We perform the first systematic study of EoW-TSE, evaluating advanced discriminative and generative models under real diverse acoustic conditions. Given the short and noisy nature of wake-word segments, we investigate enrollment augmentation using LLM-based TTS. Results show that while current TSE models face performance degradation in EoW-TSE, TTS-based assistance significantly enhances the listening experience, though gaps remain in speech recognition accuracy.

💡 Analysis

**

1. 연구 배경 및 동기

문제점기존 접근법한계
등록 음성 확보사전 녹음된 고품질 음성 사용사용자 경험 저해, 첫 사용 시 불가능
멀티모달 의존AV‑TSE, 공간 보조 TSE 등카메라·마이크 어레이 필요 → 프라이버시·하드웨어 제약
실시간 적용대부분 오프라인·배치 처리실시간 대화 시스템에 부적합

EoW‑TSE는 **“제로‑노력(zero‑effort) 등록”**을 목표로, 웨이크‑워드 자체를 등록 단서로 전환함으로써 위 한계를 근본적으로 해소한다.

2. 제안 프레임워크 핵심 흐름

  1. KWS‑Segmentation – 실시간 키워드 스포팅으로 웨이크‑워드 구간(x_wake)과 이후 질의 구간(x_query)을 분리.
  2. Enroll‑on‑Wakeupx_wake를 바로 등록 신호로 사용 (짧고 잡음 포함).
  3. Target Extraction – TSE 모델 F(·;Θ)x_wakex_query를 입력해 목표 발화를 복원 (ŝ_query).

핵심 난제: x_wake짧고(≈1 s) 노이즈·간섭에 취약해 “클루 오염(clue contamination)”이 발생한다는 점.

3. 모델 및 실험 설계

모델유형주요 메커니즘
SEF‑PNet판별형ISA + LCA, 외부 스피커 인코더 불필요
LExt판별형등록 음성 앞에 삽입 → “프롬프트” 방식
CIE‑mDPTNet판별형TF‑도메인 attention + Dual‑Path Transformer
SoloSpeech생성형압축‑추출‑Diffusion 3단계 파이프라인
  • 데이터: Unisound 내부 수집 5개 시나리오(다양한 거리·RT60·SNR) → 총 2,000+ 발화, 평균 등록 길이 1 s.
  • 평가 지표: SI‑SDR, PESQ, STOI (신호 품질) / DNS‑MOS, WER (청취·인식).
  • 등록 보강
    • Clean Re‑synthesis (CR): x_wake 텍스트를 TTS에 입력해 청정 음성 생성.
    • Extended Concatenation (EC): TTS로 추가 문장을 생성해 x_wake와 결합, 클루 다양성 확대.

4. 주요 결과 요약

평가 항목원본 EoW‑TSECR 보강EC 보강
PESQ / DNS‑MOS평균 2.1 / 3.4+0.6 ~ 0.9+0.4 ~ 0.7
SI‑SDR7.8 dB9.2 dB8.7 dB
WER28 % (far‑reverb)24 % (↓)25 % (↓)
모델별 특성SoloSpeech → 최고 품질, WER 급증SEF‑PNet/LExt → 품질·인식 균형CIE‑mDPTNet → WER 최강
  • 생성형 SoloSpeech는 청취 품질에서 가장 높은 OVRL/DNS‑MOS를 기록했지만, 음성 왜곡으로 인해 WER이 크게 악화(특히 far‑field·reverb 상황).
  • 판별형 모델(특히 CIE‑mDPTNet)은 ASR 친화성이 뛰어나, 잡음이 심한 환경에서도 상대적으로 낮은 WER을 유지한다.
  • TTS 보강은 전반적인 품질을 향상시키지만, 완전한 복구에는 아직 한계가 있다(특히 매우 낮은 SNR ≤ 5 dB).

5. 강점 및 기여

  1. 새로운 연구 패러다임 제시 – “Enroll‑on‑Wakeup”이라는 실시간 등록 개념을 최초로 정의하고, 실제 서비스 환경을 반영한 데이터셋을 구축.
  2. 광범위한 벤치마크 – 최신 판별형·생성형 TSE 모델을 동일 조건에서 비교함으로써 모델별 장·단점을 명확히 드러냄.
  3. LLM‑TTS 활용 – 대형 언어 모델 기반 TTS를 등록 보강에 적용, “텍스트 → 청정 음성” 파이프라인을 실증.
  4. 실용적 인사이트 – 서비스 설계 시 “품질 vs. 인식” 트레이드‑오프를 명시, 상황에 맞는 모델·보강 전략 선택 가능.

6. 한계 및 향후 연구 방향

한계제안되는 해결책
짧은 등록 길이 – 1 s 이하는 스피커 특성을 충분히 포착하기 어려움• 멀티‑턴 대화에서 연속적인 웨이크‑워드/명령어를 누적해 동적 등록 구축
• 온라인 스피커 적응(continual adaptation) 기법 도입
노이즈·간섭에 의한 클루 오염• 잡음 억제 전처리(denoising)와 멀티‑스케일 attention 결합
• 비지도 스피커 클러스터링을 활용한 클루 정제
생성형 모델의 ASR 손실• 음성‑텍스트 일관성을 보장하는 joint TSE‑ASR 학습
• 퍼셉트론 기반 phoneme‑preserving diffusion 설계
TTS 보강 비용 – 대형 LLM‑TTS는 연산·시간 비용이 높음• 경량화된 voice conversion 모델(예: speaker‑aware VAE)으로 빠른 보강
• 사전 학습된 embedding‑to‑wave 디코더 활용
데이터 다양성 – 현재는 Unisound 내부 5시나리오에 국한• 공개된 다국어·다도메인 데이터셋(예: CHiME‑7, AMI)으로 범용성 검증
• 실시간 스트리밍 환경에서 지연(Latency) 측정 확대

7. 실무 적용 시 고려사항

  • 시스템 설계: 웨이크‑워드 검출 정확도와 지연 시간을 최소화해야 하며, KWS‑Segmentation 모듈이 고신뢰도여야 한다.
  • 연산 자원: 판별형 모델은 상대적으로 가벼워 임베디드 디바이스에 적합하고, 생성형 모델은 서버‑사이드 혹은 고성능 엣지 디바이스에 배치.
  • 프라이버시: AV‑TSE와 달리 음성만 사용하므로 카메라 프라이버시 이슈는 회피 가능하지만, 음성 데이터 저장·전송에 대한 보안 정책이 필요.
  • 사용자 경험: “Zero‑effort” 등록을 강조하되, 실시간 피드백(예: “잠시만요, 잡음이 많아 다시 말씀해 주세요”)을 제공해 인식 실패 시 재시도 유도.

**

📄 Content

목표 화자 추출(TSE) 은 다중 화자 혹은 잡음이 섞인 음향 환경에서 보조 단서(예: 목표 화자의 사전 등록 발화)를 활용해 특정 화자의 음성을 분리하는 기술이다. 기존 TSE 프레임워크는 일반적으로 고품질의 사전 녹음된 등록 신호가 존재한다는 전제 하에, 해당 신호를 이용해 추출 백본이 화자 고유의 임베딩을 특징화하도록 설계된다[1][2][3]. 그러나 실제 인간‑기계 대화 상황에서는 사용자가 사전에 수집된 등록 샘플을 제공하도록 요구하는 것이 상호작용의 흐름을 크게 방해하고, 즉각적인 혹은 최초 사용자의 시스템 활용 가능성을 크게 제한한다. 이러한 격차를 메우고 진정한 무중단 상호작용을 구현하기 위해서는 “Wake‑up 시 자동 등록”(Enroll‑on‑Wakeup, EoW) TSE 로의 전환이 필수적이다. 이 설정에서는 시스템이 초기 트리거링 단계에서 캡처된 짧고 종종 잡음·간섭에 오염된 웨이크‑워드 구간만을 이용해 목표 화자를 추출해야 하므로, 현재 TSE 연구에 새로운 동시에 필수적인 도전을 제시한다.


1. 기존 목표 화자 단서 제공 방식의 분류

  1. 음성 전용(AUDIO‑ONLY) 방식

    • 사전 학습된 화자 검증 모델[4] 혹은 전용 화자 인코더[5][6][7]를 이용해 목표 화자 임베딩을 추출한다.
    • 최근에는 화자 임베딩 없이도 동작하는 방법[8][9][10]과 파형 수준에서 직접 결합하는 접근법[11]이 다양한 TSE 과제에서 강인한 성능을 보였다.
    • 그러나 이들 역시 사전 녹음된 등록이 필요하다는 점에서 한계가 있다.
  2. 음성‑시각(AV‑TSE) 방식

    • 입술 움직임 등 시각 정보를 활용해 화자 단서를 보강한다[12][13][14].
    • 최신 연구에서는 대형 언어 모델(LLM)의 언어 지식을 결합해 음향 저하를 보완하기도 한다[15].
    • 하지만 AV‑TSE는 시야 확보가 전제되어야 하며, 저전력 임베디드 디바이스에서의 프라이버시·연산 비용 문제가 크게 대두된다.
  3. 공간 보조(SPATIAL‑ASSISTED) 방식

    • 다채널 특징이나 도착 방향(DOA) 정보를 이용해 목표 화자를 로컬라이징한다[16][17].
    • 효과적이지만 특정 마이크 어레이 구성이 필요해 하드웨어 다양성에 제약을 받는다.

2. 문제 제기 및 연구 목표

대부분의 기존 프레임워크는 즉흥적인 대화 상황에서 고품질 레퍼런스를 확보하기 어려운 현실을 간과한다. 사전 수집 데이터 혹은 특수 하드웨어에 대한 의존성은 인간‑기계 상호작용의 원활함을 저해하는 병목이 된다. 본 논문에서는 상호작용 과정 자체에서 얻을 수 있는 내재 정보를 활용하는 가능성을 탐색한다. 구체적으로는 웨이크‑워드 구간을 바로 등록 레퍼런스로 사용하는 EoW‑TSE 를 제안함으로써 사용자의 수동 등록 부담을 완전히 제거한다. 주요 기여는 다음과 같다.

  • EoW‑TSE 패러다임 도입 : 트리거링 웨이크‑워드를 자동 등록 단서로 활용해 ‘노력 제로(zero‑effort)’ 인간‑기계 상호작용을 구현.
  • 첫 번째 체계적 연구 : 다양한 음향 조건·복합 간섭 하에서 최신 생성·판별 모델들을 포괄적으로 평가.
  • LLM 기반 TTS를 이용한 등록 증강 : 합성된 등록이 심각한 음향 저하 상황에서 인지 품질을 크게 향상시키는 것을 입증하고, 음성 인식 정확도와 청취 가능성 사이의 균형 문제를 제시.

3. EoW‑TSE 프레임워크 정의 (Figure 1)

EoW‑TSE 의 목표는 연속적인 잡음 혼합 신호 로부터 오직 순간적인 웨이크‑워드 구간 만을 등록 레퍼런스로 사용해 목표 화자를 추출하는 것이다.

전통적인 TSE 모델

시간 영역에서 관측된 잡음 혼합 (x(t)) 는 다음과 같이 모델링된다.

[ x(t)=s(t)+n(t) ]

  • (s(t)) : 깨끗한 목표 화자 음성
  • (n(t)) : 잡음 및 방해 화자들의 합

전통적인 방법은 고품질 사전 등록 발화 (e_{\text{pre}}) 를 이용해

[ \hat{s}(t)=F\bigl(x(t),e_{\text{pre}};\Theta\bigr) ]

와 같이 추출한다. 여기서 (F) 는 TSE 매핑 함수, (\Theta) 는 모델 파라미터이다. 섹션 1에서 논의했듯이, 사전 수집된 (e_{\text{pre}}) 에 대한 의존은 시스템의 자발성을 크게 제한한다.

제안된 EoW‑TSE 흐름

Figure 1 에서 볼 수 있듯이, 입력 스트림은 웨이크‑업 명령(예: “Hi, Pandora”) 뒤에 목표 질의(예: “오늘 날씨 어때?”) 가 바로 이어진다. EoW‑TSE 의 작업 흐름은 다음과 같다.

  1. KWS‑Segmentation : 키워드 스포팅(KWS) 모듈이 스트림을 웨이크‑워드 구간 (x_{\text{wake}})이후 잡음 혼합 (x_{\text{query}}) 로 분리한다.
  2. Enroll‑on‑Wakeup : 시스템은 자동으로 (x_{\text{wake}}) 를 등록 레퍼런스로 사용한다. 정적인 (e_{\text{pre}}) 와 달리 (x_{\text{wake}}) 는 짧은 지속시간환경 잡음·간섭 으로 인한 음향 오염이 내재한다.
  3. Target Extraction : TSE 모델은 이 짧고 잡음이 섞인 등록을 이용해 질의 혼합으로부터 목표 화자 음성 (\hat{s}_{\text{query}}) 를 추출한다.

[ \hat{s}{\text{query}} = F\bigl(x{\text{query}}, x_{\text{wake}}; \Theta\bigr) ]

EoW‑TSE 의 핵심 혁신은 ‘등록‑후‑추출’ 제약을 없애는 무노력 등록 에 있다. 그러나 (x_{\text{wake}}) 가 지나치게 짧아 강력한 화자 단서를 제공하기 어렵고, 실시간 환경 간섭으로 인해 ‘단서 오염(clue contamination)’ 이 발생해 성능 저하가 크게 나타난다.


4. 실험 설계

4‑가지 실제 녹음 시나리오

Unisound 내부 데이터셋[1] 에서 수집한 5가지 서로 다른 음향 환경 을 사용한다. 각 시나리오는 화자 거리((d)), 잔향 시간((RT_{60})), 신호대잡음비((SNR)) 등에서 차이를 보이며, 실제 인간‑기계 대화의 복잡성을 반영한다. 주요 통계는 Table 1 에 정리돼 있다.

  • CloseNoise : 비교적 깨끗한 환경(거리 1 m, SNR ≈ 10 dB).
  • FarNoise, FarNoise‑Reverb 등 : 거리 3 m, TV 프로그램 배경음·비대상 인간 음성·방해 화자 포함, (RT_{60}) 은 0.4 s~0.6 s, SNR 은 10 dB와 5 dB 로 변동.

웨이크‑업 구문은 “Hi, Pandora” 혹은 “Hello, Cube” 라는 두 가지 중국어 명령어를 사용한다. 평균 등록 길이는 약 1.0 초 로, 기존 TSE 벤치마크에서 사용되는 다초·다발음 등록에 비해 현저히 짧다.

평가 대상 모델

다음 4가지 최신 TSE 모델 을 비교한다.

모델유형주요 특징
SEF‑PNet[9]판별화자 임베딩 없이 인터랙티브 스피커 어댑테이션(ISA)·지역‑전역 컨텍스트 집계(LCA) 사용
LExt[11]판별등록 발화를 혼합 파형 앞에 붙여 “프롬프트” 역할을 하게 함
CIE‑mDPTNet[10]판별T‑F 도메인 상호작용을 위한 간단한 어텐션 + 듀얼‑패스 트랜스포머
SoloSpeech[18]생성오디오 압축·임베딩‑프리 추출·T‑F 도메인 디퓨전 보정으로 고품질 합성 구현

등록 증강을 위한 LLM 기반 TTS

세 가지 Zero‑Shot 생성 TTS 모델을 활용한다.

  • IndexTTS‑2[26]
  • xTTS[27]
  • CosyVoice‑3[28]

두 가지 증강 전략을 실험한다.

  1. Clean Re‑synthesis (CR) : 원본 웨이크‑업 텍스트 (t_{\text{wake}}) 를 입력으로 하여 깨끗한 음성 (x_{\text{wake}}^{\text{clean}} = G(t_{\text{wake}}|x_{\text{wake}})) 를 생성하고, 이를 단독 등록으로 사용.
  2. Extended Concatenation (EC) : ChatGPT 로 생성한 보조 문장 (t_{\text{gen}}) 를 TTS에 넣어 보조 클린 세그먼트 (a_{\text{gen}} = G(t_{\text{gen}}|x_{\text{wake}})) 를 만든 뒤, 원본과 결합해 확장 등록 (e_{\text{aug}} = [x_{\text{wake}}^{\text{clean}} \oplus a_{\text{gen}}]) 를 만든다.

학습·평가 설정

  • 데이터 : 16 kHz 샘플링, Libri2Mix train‑100(판별)·train‑360(생성) 사용.
  • 학습 : SEF‑PNet·CIE‑mDPTNet 은 130 epoch, Adam(LR = 5e‑4) 로 학습; LR 은 0.98(2 epoch)·0.9(그 이후) 로 감소. LExt 은 LR = 1e‑4, weight‑decay = 1e‑5.
  • 평가 지표 : SI‑SDR, PESQ, STOI (신호 품질)·DNS‑MOS, WER (지각·인식) 사용. WER 은 Fun‑ASR 서비스와 meeteval 툴킷으로 일관되게 계산.

5. 주요 실험 결과

5‑1. 기본 모델 성능 (Libri2Mix 2‑speaker+noise)

Table 2 에서는 파라미터 규모·MACs 기준으로 다양한 모델을 비

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키