한 단계 목표 화자 추출을 위한 MeanFlow TSE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MeanFlow‑TSE는 혼합 음성에서 목표 화자를 한 번의 추론 단계만으로 고품질로 분리하는 새로운 생성 모델이다. AD‑FlowTSE의 혼합 비율 기반 흐름을 확장하고, 평균 흐름(mean‑flow) 목표와 α‑Flow 커리큘럼을 도입해 학습한다. Libri2Mix 실험에서 SI‑SDR, PESQ, ESTOI 등 모든 평가 지표에서 기존 확산·플로우 기반 방법들을 앞섰으며, 추론 비용은 NFE = 1에 그친다.

상세 분석

MeanFlow‑TSE는 목표 화자 추출(TSE)을 “조건부 생성” 문제로 재정의하고, 기존 확산 모델이 요구하던 다단계 역전파 과정을 완전히 제거한다는 점에서 혁신적이다. 핵심 아이디어는 두 개의 스펙트럼 표현, 즉 배경(B)과 목표(S) 사이에 혼합 비율 λ에 의해 정의된 선형 경로를 설정하고, 이 경로상의 평균 속도(mean‑flow)를 직접 학습하는 것이다. 평균 속도는 시간 t와 목표 시점 r(=1) 사이를 한 번에 건너뛰는 변환으로, 식 (7)·(10)에서 보듯이 z_r = z_t + (r‑t)·v_avg(z_t, t, r) 형태를 취한다.

이때 평균 속도는 단순히 순간 속도(표준 플로우 매칭)와 달리 전체 구간을 통합해 추정하므로, 작은 시간 간격에 대한 정밀한 ODE 적분이 필요 없으며, 한 단계(Euler)만으로도 정확한 변환을 구현한다. 학습 단계에서는 α‑Flow 프레임워크를 차용해 목표 속도를 α·u + (1‑α)·v_θ(·) 형태로 보간한다. 여기서 u = S‑B는 실제 전이 방향이며, α는 1에서 0으로 점진적으로 감소하는 커리큘럼 스케줄에 따라 조정된다. 초기에는 전통적인 플로우 매칭(α = 1)으로 안정적인 기초를 닦고, 이후 α를 감소시켜 평균 흐름 정체성(mean‑flow identity)으로 전환함으로써 모델이 한 번에 전체 구간을 학습하도록 유도한다.

또한, 평균 흐름 학습의 불안정성을 완화하기 위해 적응형 가중치 w = α‖Δ‖² + c(식 11)를 도입하고, stop‑gradient 연산을 통해 손실에 과도한 영향을 주지 않게 설계하였다. 이 가중치는 Δ가 클수록 손실을 강조해 학습 초기에 큰 오류를 빠르게 교정하고, α가 작아짐에 따라 점진적으로 가중치를 낮춰 평균 흐름에 집중하도록 만든다.

추론 시에는 혼합 비율 λ을 사전에 학습된 보조 네트워크 g_ϕ가 예측한다. λ̂가 확보되면 혼합 스펙트럼 Y를 t = λ̂ 위치에서 시작점으로 삼아, 한 번의 평균 흐름 변환 ˆS = Y + (1‑λ̂)·v_θ(Y, λ̂, 1, e) 로 목표 스펙트럼을 복원한다. 이 과정은 노이즈가 포함된 중간 구간을 건너뛰어 직접 클린 타깃으로 이동하므로, 전통적인 다단계 샘플링에서 발생하는 누적 오차와 연산 비용을 완전히 회피한다.

실험에서는 Libri2Mix 데이터셋(노이즈·클린 두 조건)에서 기존 확산 기반 모델(DiffSep+SV, DDTSE, DiffTSE)과 플로우 기반 모델(FlowTSE, AD‑FlowTSE)보다 SI‑SDR, PESQ, ESTOI 등에서 모두 우수한 성능을 기록했다. 특히, NFE = 1에서도 최고 성능을 유지했으며, 추가적인 Euler 단계는 오히려 성능을 저하시켰다. 계산 비용 측면에서도 RTF ≈ 0.018, 메모리 사용량 ≈ 1.5 GB로 실시간 적용이 가능한 수준이다.

요약하면, MeanFlow‑TSE는 (1) 혼합 비율 기반 경로 설정, (2) 평균 흐름 목표 도입, (3) α‑Flow 커리큘럼과 적응형 가중치로 안정적인 학습, (4) 별도 λ 예측기로 실시간 초기화, 라는 네 가지 핵심 설계를 통해 “한 단계” 목표 화자 추출을 실현했으며, 이는 저지연 음성 인터페이스, 보청기, 실시간 통신 등 실용적인 응용 분야에 큰 파급 효과를 기대한다.

한 단계 목표 화자 추출을 위한 MeanFlow TSE

초록

상세 분석

댓글 및 학술 토론

의견 남기기