초저비트율 신경음성코덱의 환각을 억제하는 언어모델 기반 손실
초록
본 논문은 초저비트율(≤0.4 kbps) 신경음성코덱에서 발생하는 ‘음소 환각(Phoneme Hallucination)’ 현상을 완화하기 위해, 사전학습된 언어모델을 활용한 두 종류의 손실 함수(LM Loss)를 제안한다. 하나는 자동음성인식(ASR) 모델 Whisper를 이용한 ASR Loss이며, 다른 하나는 WavLM과 BERT를 연결한 Timed‑Text Regularizer(TTR) Loss이다. 제안 손실을 기존의 의미 증류(Semantic Distillation, SD) 손실과 비교 실험한 결과, LM Loss가 의미 일관성을 크게 향상시키면서도 전반적인 음질을 유지함을 확인하였다.
상세 분석
이 연구는 초저비트율 코덱이 직면한 핵심 문제, 즉 압축률이 극단적으로 높아질 때 디코더가 의미 정보를 충분히 복원하지 못하고 ‘음소 환각’이라는 형태의 인공적인 발음을 생성하는 현상을 정확히 짚어낸다. 기존의 의미 증류(SD) 방식은 HuBERT‑AAPT와 같은 사전학습된 음성 표현을 손실함수에 직접 매핑해 의미를 보존하려 했지만, 코드북 용량이 제한적이거나 프레임 레이트가 낮을 경우 여전히 PH가 발생한다는 한계를 보였다. 논문은 이를 보완하기 위해 두 가지 LM Loss를 설계하였다.
첫 번째는 ASR Loss이다. Whisper와 같은 서브워드 기반 자동음성인식 모델을 그대로 활용해, 원본 음성 x와 디코딩된 음성 (\hat{x}) 각각에 대해 동일한 토큰 시퀀스 (c_W)를 예측한다. 이후 (\hat{x})에 대해 얻은 토큰 시퀀스와 원본 토큰 시퀀스 사이의 교차엔트로피를 최소화함으로써, 디코더가 생성한 음성이 ASR 모델의 내부 언어모델이 기대하는 서브워드 분포와 일치하도록 강제한다. 이 방식은 실제 스크립트가 없어도 적용 가능하다는 장점이 있다. 다만, 토큰 레벨 손실이 직접적인 음성‑텍스트 정렬을 제공하지 않기 때문에 훈련 초기에 불안정성이 나타날 수 있음을 논문은 실험적으로 확인한다.
두 번째는 Timed‑Text Regularizer(TTR) Loss이다. 여기서는 WavLM을 이용해 디코딩된 음성 (\hat{x})를 서브워드 단위로 임베딩하고, 이를 요약·집계하는 두 개의 트랜스포머 모듈(P_Sum, P_Agg)을 통해 고정된 차원의 벡터 (S_i)로 변환한다. 동시에 동일한 서브워드 시퀀스에 대해 BERT 기반 텍스트 LM이 생성한 임베딩 (T_i)와 비교한다. 손실은 (1) 각 (S_i)와 (T_i) 사이의 코사인 유사도, (2) 전체 시퀀스 내 쌍(pair) 간 내재 관계(내부 코사인 차이)를 동시에 최소화하도록 설계돼, 음성‑텍스트 간 정밀한 정렬과 구조적 일관성을 동시에 학습한다. 이때 BERT와 WavLM은 사전학습된 상태로 고정하고, 요약·집계 모듈만 학습함으로써 추가적인 파라미터 비용을 최소화한다.
실험 설계는 기존에 널리 사용되는 3단계 훈련 파이프라인(인코더‑디코더 사전학습 → VQ 코드북 학습 → 최종 디코더 미세조정)을 그대로 유지하면서, 마지막 단계에서 LM Loss 혹은 기존 SD 손실을 교체 적용한다. 평가 지표는 객관적인 WER, PESQ, STOI와 주관적인 MUSHRA‑유사 청취 테스트, 그리고 PH 발생 빈도 분석을 포함한다. 결과는 LM Loss가 특히 187.5 bps(≈0.15 kbps) 수준에서 PH를 현저히 감소시키고, WER을 30 % 이상 개선함을 보여준다. 주관적 청취 실험에서도 ‘의미 일관성’ 점수가 SD 대비 평균 0.12점 상승했으며, 전체 음질 점수는 큰 차이를 보이지 않아 품질 저하 없이 의미 보존이 가능함을 입증한다. 또한, ASR Loss는 스크립트가 없는 대규모 비라벨 데이터에 적용 가능하다는 실용적 장점을, TTR Loss는 정확한 텍스트 정렬이 가능한 라벨 데이터에서 더 높은 정밀도를 제공한다는 점에서 상호 보완적이다.
결론적으로, 언어모델을 손실 함수에 직접 결합하는 접근법은 초저비트율 코덱이 직면한 의미 손실 문제를 효과적으로 완화한다. 이는 기존 의미 증류가 갖는 “표현력 제한”을 넘어, 사전학습된 텍스트‑음성 연관성을 활용해 디코더가 ‘올바른’ 음소를 재생성하도록 유도한다는 점에서 혁신적이다. 향후 연구에서는 더 큰 규모의 멀티모달 LM(예: Whisper‑large, GPT‑4V)과 결합하거나, 실시간 스트리밍 환경에서의 연산 비용을 최적화하는 방안을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기