키워드 기반 목표 화자 추출 탐지‑주의‑추출 프레임워크
초록
본 논문은 사전 등록된 화자 음성 없이, 사용자가 제공한 짧은 키워드 전사(부분 텍스트)를 이용해 목표 화자를 지정하고, 혼합 음성에서 해당 화자의 전체 발화를 추출하는 DAE‑TSE 시스템을 제안한다. 키워드‑가이드 큐 인코더(KCE)를 ASR과 화자 검증(SV) 다중 과제로 jointly 학습시켜 키워드 존재 여부와 시간 위치를 탐지하고, 이를 기반으로 전역 화자 임베딩을 생성한다. 이후 Band‑Split RNN 기반 추출 백본에 화자 임베딩을 조건으로 제공해 목표 화자를 정확히 분리한다. 실험 결과, 전체 전사 대비 28.4%만 사용해도 기존 enrollment‑based TSE보다 우수한 성능을 보이며, 키워드 탐지·위치 정확도는 약 100 ms 오차 수준이다.
상세 분석
DAE‑TSE는 기존 목표 화자 추출(TSE) 방식이 전제하는 “깨끗한 enrollment 음성”이라는 전제조건을 탈피한다는 점에서 혁신적이다. 핵심 아이디어는 사용자가 말한 특정 키워드(예: “Hey Siri”)를 텍스트 형태로 제공하면, 시스템이 그 키워드가 포함된 구간을 자동으로 탐지하고, 해당 구간을 발화한 화자를 전역 화자 임베딩으로 변환한다는 것이다. 이를 위해 논문은 두 단계의 주요 모듈을 설계한다. 첫 번째는 Keyword‑guided Cue Encoder(KCE)이며, 입력으로 혼합 음성의 로그 멜 스펙트로그램과 키워드의 음소 임베딩을 받는다. KCE는 Transformer 기반 음성 인코더와 음소 인코더 사이에 cross‑attention을 삽입해, 텍스트와 음성의 시계열 정렬을 학습한다. 학습 목표는 CTC 기반 자동 음성 인식(ASR) 손실과 화자 검증(SV) 손실을 가중합한 복합 손실이다. ASR 손실은 전체 전사(키워드 포함)를 예측하도록 하여 키워드‑음성 매핑을 강화하고, SV 손실은 키워드 구간을 발화한 화자를 정확히 식별하도록 한다. 특히, 각 Transformer 레이어의 출력을 가중합한 뒤 평균 풀링을 수행해 얻은 화자 임베딩은 키워드‑구간에 국한된 스피커 정보를 압축한다. 두 번째는 Band‑Split RNN(BSRNN) 기반 추출 백본이다. BSRNN은 시간‑주파수 도메인에서 서브밴드별로 RNN을 순차적으로 적용해 복잡한 혼합 신호를 효과적으로 분리한다. 기존 BSRNN에 화자 임베딩을 조건으로 삽입하는 fusion 모듈을 추가함으로써, 전역 화자 정보를 활용해 목표 화자만을 강조한다. 전체 파이프라인은 “Detect‑Attend‑Extract”라는 3단계 흐름으로 정리된다. Detect 단계에서는 KCE의 cross‑attention 맵을 동적 프로그래밍 알고리즘으로 탐색해 키워드 존재 여부와 시작·종료 프레임을 추정한다. Attend 단계에서는 탐지된 키워드에 기반해 화자 임베딩을 추출한다. 마지막 Extract 단계에서는 BSRNN이 이 임베딩을 조건으로 목표 화자를 복원한다. 실험에서는 LibriSpeech 기반 시뮬레이션 데이터를 사용했으며, 전체 전사 대비 28.4%만 사용해도 기존 enrollment‑based TSE보다 높은 SI‑SNR 및 SDR을 달성했다. 키워드 탐지 정확도는 평균 100 ms 이하의 시간 오차를 보였으며, 이는 실시간 음성 비서나 회의 녹음에서 실용적으로 활용될 수 있음을 의미한다. 또한, KCE를 사전 학습한 뒤 고정하고 추출 백본만 미세조정하는 2단계 학습 전략이 효율적임을 입증했다. 전체적으로 이 연구는 텍스트 기반 화자 지정이라는 새로운 패러다임을 제시하며, 사전 등록이 어려운 동적 환경에서 TSE를 적용할 수 있는 실용적 길을 연다.
댓글 및 학술 토론
Loading comments...
의견 남기기