HiFi‑Glot 고품질 신경 포먼트 합성 및 차별화 가능한 공진 필터

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HiFi‑Glot은 전통적인 소스‑필터 모델을 신경망 기반 보코더와 미분 가능한 전부극(all‑pole) 공진 필터로 결합한 엔드‑투‑엔드 포먼트 합성 시스템이다. glottal excitation을 신경 보코더가 생성하고, 예측된 필터 파라미터를 이용해 실시간으로 음성 파형을 합성한다. 실험 결과, Praat과 기존 신경형 모델(NFS‑HiFiGAN)보다 형식 주파수 제어 정확도와 청감 품질·자연스러움에서 모두 우수함을 보였다.

상세 분석

HiFi‑Glot은 고전적인 소스‑필터 이론을 현대 딥러닝 프레임워크와 접목시킨 점이 가장 큰 혁신이다. 입력으로는 F0, F1‑F3, 스펙트럼 틸트, 센트로이드, 에너지 등 해석 가능한 음성 파라미터를 제공하고, 이를 8층의 GCNN(게이트형 컨볼루션 신경망)으로 매핑해 두 종류의 출력을 만든다. 첫 번째 출력은 51개의 전부극 필터 파라미터(50개의 로그 면적 비율과 1개의 게인)이며, 이는 tanh 함수를 통해 반사 계수로 변환돼 Levinson‑recursion을 거쳐 안정적인 직접형 LPC 계수 a 로 전환된다. 두 번째 출력은 128차원의 잠재 벡터로, NSF‑HiFiGAN 디코더에 전달돼 glottal excitation을 생성한다. 이 excitation은 STFT‑도메인에서 전부극 필터의 주파수 응답 H(z)와 복소수 곱셈을 수행한 뒤, ISTFT와 overlap‑add를 통해 최종 파형 x(t)로 복원된다. 핵심은 H(z)를 FFT 기반 FIR 근사로 구현해 GPU 상에서 완전 병렬 처리를 가능하게 한 점이다. 기존 GELP이나 LPCNet이 자동회귀 방식에 의존해 속도가 제한됐던 반면, HiFi‑Glot은 전부극 필터 파라미터에 대한 미분 가능성을 유지하면서도 실시간 수준의 합성을 달성한다.
학습 단계에서는 멀티‑스케일 멜 스펙트로그램 손실, 필터 스펙트럼 로그 손실, 그리고 네 종류의 판별기(MPD, MSD, MS‑STFTD, MS‑SB‑CQTD)를 통한 adversarial loss와 feature‑matching loss를 결합했다. 특히 판별기들을 다중 주기·다중 스케일·CQT 기반으로 설계해 시간‑주파수 양쪽에서 고품질 파형을 유도한다.
실험에서는 1664시간 규모의 데이터로 사전 학습하고, 1000개의 평가 발화를 사용해 객관적 RMSE와 주관적 MUSHRA 테스트를 수행했다. 형식 주파수(F1‑F3)와 스펙트럼 특성(틸트, 센트로이드, 에너지) 조작 시 HiFi‑Glot은 하향 스케일링에서 특히 낮은 오류를 보였으며, 상향 스케일링에서도 NFS‑HiFiGAN과 동등하거나 우수한 성능을 기록했다. Praat은 원본 excitation과 LPC 엔벨로프를 그대로 사용해 단위 스케일에서는 최고 점수를 받았지만, 스케일이 변하면 급격히 성능이 떨어졌다. 반면 HiFi‑Glot은 형식 파라미터를 전역적으로 변형해도 품질·자연스러움 점수가 비교적 안정적이었다.
이러한 결과는 미분 가능한 전부극 필터가 형식 제어의 정밀성을 유지하면서도 신경 보코더가 제공하는 풍부한 음성 질감을 효과적으로 결합한다는 것을 입증한다. 다만 현재는 44.1 kHz 단일 화자 데이터에 최적화돼 있어 다중 화자·다국어 확장성, 실시간 인퍼런스 지연, 그리고 비음성 구간(무성음) 처리 등에 대한 추가 연구가 필요하다.

HiFi‑Glot 고품질 신경 포먼트 합성 및 차별화 가능한 공진 필터

초록

상세 분석

댓글 및 학술 토론

의견 남기기