샘플RNN 기반 초저비트 고품질 음성 코딩

본 논문은 샘플RNN을 기반으로 한 새로운 음성 코딩 프레임워크를 제안한다. 기존의 LPC‑기반 보코더에서 추출한 파라미터를 5.6, 6.4, 8 kb/s로 양자화하고, 이를 샘플RNN의 조건부 입력으로 사용한다. 양자화 과정은 LSP 도메인에서 GMM‑기반 Z‑격자 코딩을 적용해 스펙트럼 왜곡을 1 dB 수준으로 제한하고, 피치와 보이싱은 워핑 후 VQ를 통해 효율적으로 압축한다. 특히, 저비트레이트 파라미터를 고비트레이트 포맷에 임베딩하는 설계(제로 패딩 및 저품질 파라미터 교체)를 도입해, 동일 모델이 다양한 비트레이트 입력을 처리하도록 하였다. 샘플RNN은 4‑계층 구조로, 최상위 계층은 보코더 프레임과 동일한 시간 해상도를 갖고, 하위 계층은 각각 2, 16, 160 샘플 단위로 업샘플링한다. 각 계층은 1024개의 GRU 유닛과 1×1 컨볼루션을 포함하며, 조건 벡터와 이전 계층 출력을 선형 결합한다. 출력층에서는 256‑way 소프트맥스 대신 이산 로지스틱 혼합(discretized logistic mixture) 방식을 사용해 16‑bit 샘플을 직접 생성한다. 이는 기존 µ‑law 기반 샘플RNN보다 높은 해상도와 부드러운 음성 재현을 가능하게 한다. 학습은 WSJ0 데이터(45 시간)와 VCTK 데이터(추가 45 시간)를 이용해 단일 GPU에서 배치 24, 시퀀스 길이 6400으로 진행했으며, ADAM 옵티마이저와 학습률 감소 스케줄링을 적용했다. 8 kb/s 조건에 맞춰 훈련된 모델은 저비트레이트(5.6, 6.4 kb/s) 파라미터를 임베딩해 그대로 입력했을 때 품질이 점진적으로 감소하는 ‘그레이스풀 디그레이드’를 보였다. 이는 재학습 없이도 비트레이트‑품질 트레이드오프가 가능함을 의미한다. 청취 테스트는 MUSHRA 방식을 사용했으며, 8 kb/s sRNN은 SILK(16 kb/s)와 비슷한 점수를 얻었다. 6.4 kb/s sRNN은 AMR‑WB(23 kb/s)와 동등하거나 약간 우수한 품질을 보였지만, SILK보다는 낮았다. 객관적 품질 측정인 POLQA는 생성 모델의 비결정성 때문에 낮은 점수를 보였지만, 청취 결과와 일치하는 순위(AMR‑WB < SILK)를 유지했다. WSJ0 외 데이터(VCTK)에서는 약 10‑15 점 품질 저하가 관찰됐으며, WSJ0와 VCTK를 혼합한 데이터로 재학습하면 이 격차를 회복할 수 있었다. 모델은 WSJ0 내부에서는 오버피팅이 없었지만, 데이터 다양성 확보가 필요함을 시사한다. 한계점으로는 실시간 인코딩/디코딩에 필요한 연산량, 대규모 학습 데이터 요구, 그리고 잡음이 섞인 환경에 대한 견고성 부족을 들 수 있다. 향후 연구는 모델 경량화, 잡음 강인성 강화, 다중 언어·다중 화자 지원, 그리고 하드웨어 가속을 통한 실시간 적용을 목표로 할 수 있다.

샘플RNN 기반 초저비트 고품질 음성 코딩

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기