텍스트 기반 음성 편집과 음향 보존을 위한 자가일관성 보상
초록
본 논문은 텍스트를 수정함으로써 음성을 편집하는 “눈에 띄지 않는” 방법을 제안한다. 내용 편집은 의미 토큰 공간에서 수행하고, 흐름 매칭(Flow Matching) 디코더가 음향을 복원한다. 이후 사전 학습된 TTS 모델을 암시적 비평가로 활용한 자기일관성 보상(Self‑Consistency Rewards)과 강화학습(GRPO)을 통해 편집된 구간이 원본 맥락과 자연스럽게 융합되도록 한다. 실험 결과, 기존의 비자율·자율 모델보다 인식 오류, 화자 유사도, DNS‑MOS, 주관적 MOS 모두에서 우수함을 입증한다.
상세 분석
이 연구는 텍스트 기반 음성 편집을 “내용을 수정하고 음향을 보존한다(Edit Content, Preserve Acoustics)”는 두 단계 원칙으로 재구성한다. 첫 번째 단계인 구조적 기반(Structural Foundations)에서는 기존의 음향 토큰 기반 편집이 겪는 내용‑스타일 얽힘 문제를 회피하기 위해 의미 토큰(semantic token) 공간으로 편집을 옮긴다. 구체적으로, 원본 음성을 사전 학습된 의미 토크나이저로 이산화한 뒤, Prefix‑Suffix‑Middle(PSM) 포맷을 이용해 편집 대상 구간을 마스크하고, 디코더‑전용 트랜스포머(LLM)를 통해 마스크된 의미 토큰을 조건부로 예측한다. 이때 손실은 전통적인 음성‑언어 모델의 음성‑텍스트 정합성을 그대로 적용한 NLL이며, 의미 토큰만을 다루므로 음색·환경과 같은 스타일 정보는 변하지 않는다.
두 번째 단계인 지각 정렬(Perceptual Alignment)에서는 의미 토큰이 담고 있는 리듬·억양·억양 변이 등을 고려해 편집 구간이 청자에게 “눈에 띄지 않게” 융합되도록 강화학습을 도입한다. 핵심은 사전 학습된 TTS 모델을 암시적 비평가로 활용해 생성된 의미 토큰 시퀀스의 평균 로그우도(log‑probability)를 보상으로 삼는 Self‑Consistency Reward이다. 이는 TTS 모델이 학습한 자연스러운 음성 분포와 정책이 생성하는 분포 사이의 KL 발산을 최소화하는 효과와 동일하다. 또한, 단순 로그우도만으로는 의미 손실이 발생할 수 있으므로, Whisper 기반 ASR을 이용한 WER 보상(r_wer)과 길이·지속시간 일관성을 검증하는 게이트형 보상(R_base·r_sc·r_wer if valid)으로 보완한다.
보상 계산 후에는 Group Relative Policy Optimization(GRPO)이라는 변형된 PPO를 적용한다. 동일 입력에 대해 G개의 후보 시퀀스를 샘플링하고, 각 샘플의 상대적 이점을(Advantage) 평균·표준편차 기반으로 정규화해 정책 업데이트에 사용한다. 이 방식은 별도의 가치 네트워크 없이도 샘플군 전체를 베이스라인으로 삼아 편향을 감소시키며, 다중 후보 간 경쟁을 통해 더 일관된 편집 결과를 유도한다.
음향 복원은 Flow Matching 디코더와 고정된 HiFiGAN 보코더를 사용한다. Flow Matching은 연속적인 확률 흐름을 학습해 의미 토큰을 고품질 스펙트로그램으로 변환하고, 보코더가 최종 파형을 생성한다. 이 과정에서 사전 학습된 모듈을 동결함으로써 학습 안정성을 확보하고, 편집된 의미 토큰만이 전체 음향 매니폴드에 매핑되도록 한다.
실험에서는 5만 시간 규모의 Libriheavy 데이터로 의미 LLM을 사전 학습하고, 세 가지 편집 작업(삽입, 삭제, 대체)과 다양한 길이의 마스크 구간을 포함한 벤치마크를 구축했다. 비교 대상은 NAR 기반 FluentSpeech, AR 기반 VoiceCraft, 통합 LLM 기반 Ming‑UniAudio이며, 평가 지표는 WER, 화자 유사도(SIM), DNS‑MOS, 주관적 MOS이다. 결과는 제안 모델이 모든 지표에서 기존 모델을 앞서며, 특히 GRPO를 적용한 버전이 WER을 4.5% 수준으로 크게 낮추고 MOS를 4.08점(5점 만점)까지 끌어올렸다. 이는 의미 토큰 디코딩과 자기일관성 보상이 편집 구간의 경계 아티팩트를 효과적으로 억제함을 증명한다.
이 논문의 주요 기여는 (1) 의미 토큰 기반의 구조적 분리로 내용‑스타일 얽힘을 근본적으로 해소, (2) 사전 학습된 TTS 모델을 활용한 로그우도 보상으로 자연스러운 음성 분포에 정렬, (3) GRPO를 통한 효율적 강화학습 설계, (4) 광범위한 실험을 통해 실제 서비스 수준의 편집 품질을 달성했다는 점이다. 향후 연구는 다중 언어·다중 화자 상황에 대한 일반화, 실시간 편집을 위한 경량화, 그리고 사용자 의도 기반의 정교한 prosody 제어 등으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기