마스크와 흐름 매칭을 결합한 두 단계 목표 화자 추출

마스크와 흐름 매칭을 결합한 두 단계 목표 화자 추출
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Mask2Flow-TSE는 목표 화자 추출을 위해 먼저 경량 마스크 네트워크로 거친 분리를 수행하고, 이어서 흐름 매칭(Flow Matching) 모듈로 한 번의 Euler 단계만으로 세밀한 스펙트럼을 복원한다. 마스크 단계가 삭제(Deletion) 작업을 담당하고, 흐름 단계가 삽입(Insertion) 작업을 보완함으로써 기존 생성 기반 방법과 동등한 성능을 유지하면서 파라미터 85 M, 단일 추론 단계라는 효율성을 달성한다.

상세 분석

본 논문은 목표 화자 추출(TSE) 분야에서 기존의 차별적(masking) 접근법과 생성적(generative) 접근법이 각각 갖는 장단점을 명확히 분석하고, 이를 통합한 새로운 두 단계 프레임워크인 Mask2Flow‑TSE를 제안한다. 차별적 방법은 시간‑주파수 마스크를 이용해 빠르게 억제 효과를 얻지만, 마스크가


댓글 및 학술 토론

Loading comments...

의견 남기기