WhispEar 양방향 속삭임 음성 변환과 대규모 의사병렬 데이터 활용
초록
WhispEar는 속삭임과 정상 음성 사이의 고차원 의미 표현을 공유하는 양방향 변환 프레임워크이다. 정상‑대‑속삭임(N2W) 모델을 이용해 방대한 정상 음성 데이터를 기반으로 고품질 의사‑속삭임을 자동 생성하고, 이를 W2N(속삭임‑대‑정상) 학습에 활용한다. 단계적 토크나이저 증류, 흐름‑매칭 음향 모델, 그리고 통합 토크나이저 학습이라는 3단계 파이프라인을 통해 말하기 모드에 무관한 의미 정보를 추출한다. 대규모 의사‑병렬 데이터(3 000시간 이상)를 추가함에 따라 변환 품질, 인식률, 억양 복원, 화자 유사도가 지속적으로 향상되었으며, 중국‑영어 이중언어 병렬 코퍼스(wEar)를 공개하였다.
상세 분석
WhispEar는 기존 속삭임‑대‑정상 변환이 직면한 두 가지 근본적인 문제—데이터 부족과 음성‑모드 간 의미 정합성 부족—를 동시에 해결한다. 첫 번째 단계에서는 대규모 ASR 인코더(예: HuBERT‑X‑Large)로부터 의미 임베딩을 추출하고, 이를 경량 학생 모델에 L2 손실로 전이함으로써 “의미 토크나이저”를 증류한다. 이 토크나이저는 속삭임·정상 모두에 대해 동일한 의미 토큰을 생성하도록 설계돼, 말하기 모드에 독립적인 고수준 언어 정보를 보존한다.
두 번째 단계에서는 흐름‑매칭(Flow‑Matching) 트랜스포머를 이용해 토큰 → 멜스펙트로그램 변환을 수행한다. 여기서는 마스크된 멜 구간을 가우시안 노이즈로 초기화하고, 최적 수송 경로를 따라 속도장을 예측하는 손실(L_cfm)을 최소화한다. 중요한 점은 이 단계가 증류된 토크나이저 출력만을 사용한다는 점이다. 따라서 의미 정렬이 이미 확보된 상태에서 음향 모델이 학습되며, 속삭임·정상 모두에 동일한 파라미터를 공유함으로써 파라미터 효율성을 극대화한다.
세 번째 단계가 WhispEar의 핵심 차별점이다. 여기서는 두 개의 “통합 토크나이저” f_n2w와 f_w2n을 각각 N2W와 W2N 방향에 맞게 학습한다. f_n2w는 정상 음성을 입력받아 목표 의미 토큰 공간(z_w)으로 매핑하고, 이를 통해 대규모 정상 음성 코퍼스(예: LibriSpeech, EMILIA)에서 고품질 의사‑속삭임을 생성한다. 이렇게 생성된 (pseudo_x_w, x_n) 쌍은 시간‑정렬이 이미 확보된 상태이므로, W2N 토크나이저 f_w2n을 학습할 때 실 데이터와 병합해 사용한다. 결과적으로 “데이터 중심 스케일링”이 가능해지며, 실험에서는 10k, 50k, 200k 쌍까지 점진적으로 늘렸을 때 WER와 화자 유사도가 꾸준히 개선되는 현상이 관찰되었다.
또한, 저자들은 중국‑영어 이중언어 병렬 코퍼스 wEar를 구축했다. 실제 녹음 환경(교실·방음 부스)에서 146명의 화자를 대상으로 18시간 분량을 수집하고, 3 000시간 규모의 의사‑병렬 데이터를 추가해 총 3 044시간을 제공한다. 이는 기존 wTIMIT(26시간)이나 Whisper40(6시간) 등에 비해 압도적으로 큰 규모이며, 다국어 일반화 능력을 검증하는 데 중요한 역할을 한다.
성능 평가에서는 UTMOS, DNSMOS, NISQA 등 자연스러움 지표와 WER/CER, F0 Pearson Correlation, 화자 임베딩 코사인 유사도 등을 종합적으로 사용했다. WhispEar‑Scaled(3 000시간 의사 데이터 포함)는 모든 지표에서 기존 최첨단 모델(WESPER, DistillW2N, CosyVoice2, MaskCycleGAN)을 앞섰으며, 특히 화자 유사도와 억양 복원(F0 CoRR)에서 큰 폭의 개선을 보였다. 이는 의미 토큰 기반의 양방향 설계와 대규모 의사‑병렬 데이터가 화자 고유 특성과 억양 정보를 효과적으로 보존한다는 증거다.
전반적으로 WhispEar는 (1) 의미 수준에서의 모드 불변 표현 확보, (2) 흐름‑매칭 기반의 고품질 음향 모델, (3) N2W를 통한 제로샷 의사‑속삭임 생성, (4) 데이터 스케일링을 통한 성능 향상이라는 네 축을 통해 속삭임‑대‑정상 변환 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기