RawNet 빠르고 고품질을 구현한 완전 엔드투엔드 신경 보코더
RawNet은 원시 파형을 직접 입력으로 받아 자동으로 특징을 추출하고, 자동 회귀형 Voder가 샘플 단위로 복원하는 엔드‑투‑엔드 보코더이다. Coder와 Voder를 공동 학습시켜 인간이 설계한 스펙트럼 특징 없이도 높은 음성 품질과 빠른 추론 속도를 달성한다.
저자: Yunchao He, Yujun Wang
본 논문은 음성 합성에서 핵심적인 역할을 하는 보코더를 인간이 설계한 스펙트럼 특징 없이 원시 파형만으로 학습·생성하는 완전 엔드‑투‑엔드 모델 RawNet을 제안한다. 기존 신경 보코더는 멜‑스펙트로그램, F0, UV와 같은 전처리된 특징을 조건으로 사용했으며, 이러한 전처리 단계는 인간의 음성 생산 모델에 기반해 복잡하고 제한적인 정보를 제공한다. 저자들은 이러한 한계를 극복하기 위해 자동 인코더 구조를 차용, Coder와 Voder라는 두 모듈을 공동 학습시켜 원시 파형에서 직접 의미 있는 고차원 특징을 추출하고, 이를 기반으로 샘플‑바이‑샘플 방식으로 파형을 복원한다.
**관련 연구**에서는 전통적인 보코더(분석‑합성 모듈)와 최근의 WaveNet, LPCNet, HiFi‑GAN 등 다양한 신경 보코더를 소개한다. 또한 자동 인코더를 이용한 특징 추출, VITS와 같은 엔드‑투‑엔드 TTS 모델에서도 특징 추출 네트워크를 통합하는 시도가 있었지만, 이들은 주로 텍스트‑투‑스펙트럼 파이프라인에 국한되었다. RawNet은 이러한 흐름을 이어받아, 특징 추출 자체를 보코더의 일부로 만들고, 독립적인 음성 모델(예: Tacotron)과도 별도로 학습·사용 가능하도록 설계하였다.
**모델 구조**는 다음과 같다.
- **Coder**: 인과적 1‑D 컨볼루션 레이어(스트라이드와 풀링을 통해 프레임 길이 조절) → GRU 레이어 → Dense 레이어 순으로 구성된다. 입력은 200 ms(16 kHz 기준 3200 샘플)이며, 출력은 20 프레임, 차원 64의 특징 벡터이다. 인과적 설계는 시간 순서를 보존하면서도 지역적 패턴을 효과적으로 캡처한다.
- **Voder**: LPCNet에서 영감을 얻었지만 입력 정보를 크게 축소하였다. 현재 샘플과 Coder가 제공하는 프레임‑레벨 특징만을 사용한다. 특징은 두 개의 컨볼루션 → 두 개의 Dense → 프레임‑레벨 Upsampling(단순 반복 K번) → GRU(2층) → DualFC → Softmax 로 흐른다. µ‑law 8‑bit 양자화를 적용해 입력을 정규화하고, 각 레벨에 대한 임베딩을 학습한다.
**학습 전략**으로는 (1) 교차 엔트로피 손실, (2) Gaussian 노이즈를 입력 및 중간 레이어에 점진적으로 주입(σ: 0→0.2), (3) 포스트‑디노이징을 위한 에너지 기반 VAD 적용이 있다. 노이즈 주입은 자동 회귀 특성으로 인한 누적 잡음 문제를 완화하고, VAD 기반 디노이징은 무음 구간의 클릭 노이즈를 효과적으로 제거한다.
**샘플링 방법**은 여러 옵션을 실험했으며, argmax가 가장 낮은 잡음과 깨끗한 음성을 제공한다는 결론에 도달했다. 이는 Coder가 충분히 풍부한 정보를 제공해 확률적 샘플링이 필요 없음을 의미한다.
**실험**은 세 데이터셋(CMU Arctic, MuFei, LJ‑Speech)에서 스피커‑독립 및 스피커‑종속 설정으로 수행되었다. 학습은 1500 epoch, 배치 128 × 4, Nvidia P40 4대, Adam 변형(AMSGra) 1e‑2 학습률로 진행되었다. 평가에는 AB 청취 테스트가 사용되었으며, 20명의 청취자가 15쌍의 샘플을 비교했다. 결과는 RawNet이 LPCNet 대비 전반적으로 높은 선호도를 보였으며, 특히 스피커‑독립 상황에서 차이가 크게 나타났다.
**시각화**에서는 Coder가 추출한 특징이 BFCC와 유사한 스펙트럼 구조와 피치 정보를 자동으로 포착함을 확인했다. 또한 포스트‑디노이징 전후의 스펙트로그램을 비교해 클릭 노이즈가 거의 사라지는 것을 확인하였다.
**결론**적으로 RawNet은 특징 추출과 파형 복원을 하나의 네트워크 안에서 공동 최적화함으로써, 전통적인 분석‑합성 파이프라인의 복잡성을 크게 감소시켰다. 모델은 간소화된 구조에도 불구하고 LPCNet 대비 높은 음질과 빠른 추론 속도를 제공한다. 향후 연구에서는 고해상도(48 kHz) 지원, 다중 스피커 및 다국어 환경에서의 일반화, 그리고 보다 효율적인 업샘플링 및 양자화 기법을 탐구할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기