디스콘트세: 단일 단계 확산 기반 음성 향상을 위한 이산·연속 임베딩 통합 모델

디스콘트세: 단일 단계 확산 기반 음성 향상을 위한 이산·연속 임베딩 통합 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DisContSE는 사전 학습된 오디오 코덱의 이산 토큰과 연속 임베딩을 동시에 활용해 단일 단계 확산 역과정을 구현한 효율적인 음성 향상 모델이다. 이산·연속·시맨틱 3가지 모듈을 결합해 음성 품질(PESQ, POLQA)과 인지적 측정(UTMOS, MOS) 모두에서 기존 확산 기반 방법들을 앞서며, URGENT 2024 챌린지에서 전체 순위 1위를 차지했다.

상세 분석

DisContSE는 기존 확산 기반 음성 향상 모델이 다중 역전파 단계에서 높은 연산 비용을 초래한다는 문제점을 해결하고자, 이산 오디오 코덱 토큰과 연속 임베딩을 동시에 처리하는 하이브리드 구조를 제안한다. 먼저, Descript Audio Codec(DAC)으로부터 추출된 이산 토큰 X_tok와 연속 임베딩을 입력으로, 각각 별도의 ‘이산 강화 모듈’과 ‘연속 강화 모듈’이 독립적으로 작동한다. 이산 모듈은 MaskGIT 방식의 마스크 생성기를 이용해 무작위 마스크 M_t를 적용하고, 다중 코드북(C=12) 각각에 대해 병렬 임베딩 레이어를 통해 차원 H=512의 표현 E_dist를 만든 뒤, 연속·시맨틱 모듈에서 제공하는 E_cont와 E_sem을 더해 마스크드 트랜스포머 LM에 입력한다. LM은 토큰별 소프트맥스 출력을 통해 교차 엔트로피 손실 J_dis^CE를 계산하고, self‑critic 샘플링을 통해 마스크 예측 정확도를 BCE 손실 J_critic^BCE로 보강한다. 연속 강화 모듈은 DAC 인코더 출력에 기반한 연속 LM을 사용해 두 개의 FC 레이어와 트랜스포머 블록으로 구성되며, MAE 손실 J_cont^MAE로 연속 임베딩 ˆX_cont을 정제한다. 정제된 연속 임베딩은 DAC 토크나이저를 통해 다시 이산 토큰 ˆX_tok으로 변환되고, 이는 이산 모듈의 입력 초기값으로 활용된다. 시맨틱 강화 모듈은 사전 학습된 WavLM의 6번째 레이어 출력을 받아 동일한 구조의 LM으로 처리하고, MAE 손실 J_sem^MAE로 음성의 음소적 정확성을 높인다.

가장 혁신적인 부분은 ‘단일 단계 역전파’이다. 기존 확산 모델은 T=1에서 시작해 N번(보통 10~50)에 걸쳐 마스크를 점진적으로 해제하며 토큰을 복원한다. DisContSE는 초기 마스크 M_T를 ‘양자화 오차 마스크 초기화’ 전략으로 생성한다. 구체적으로, 각 코드북별 양자화 오차 행렬 Δ_quant을 계산하고, sin(πT/2)·L·C 개의 가장 큰 오차 위치에 마스크를 설정한다. 이렇게 하면 초기 상태 X_tok^T가 이미 노이즈가 큰 토큰을 집중적으로 마스크하므로, 단일 역전파 단계(t = T → 0)에서 LM이 바로 최종 토큰 ˆX_tok^0을 예측한다. 실험적으로 T=0.1(≈10% 마스크)에서 가장 높은 PESQ와 DNS‑MOS를 기록했으며, 이는 무작위 마스크 초기화보다 일관된 성능 향상을 보여준다.

학습 과정에서는 DAC 인코더·토크나이저와 WavLM 인코더를 고정하고, 전체 손실 J = J_dis^CE + J_critic^BCE + J_cont^MAE + J_sem^MAE 로 공동 최적화한다. 파라미터 수는 81.4 M(학습 가능한)이며, 고정 파라미터는 각각 74.2 M(DAC)와 158.3 M(WavLM)이다. 4대 NVIDIA H100 GPU에서 300 K 스텝(≈3.5일) 학습 후, URGENT 2024 챌린지 데이터(634.5 h 훈련, 32.7 h 검증, 661 개 테스트)에서 평가하였다.

성능 비교에서는 기존 확산 기반 모델(SGMSE+, BBED, SB, CRP, CDiffuSE, StoRM, Universe++)과 대비해 PESQ 3.14, POLQA 3.25, UTMOS 0.84, 주관적 MOS 3.75 등 다수 지표에서 최고 혹은 2위 수준을 달성했다. 특히 ESTOI와 LPS(음소 정확도)에서는 CRP가 약간 앞섰지만, 전반적인 종합 순위(2.36)에서는 DisContSE가 1위를 차지했다.

한계점으로는 단일 단계 확산이 여전히 양자화 오차에 크게 의존한다는 점과, T값을 조정하지 않으면 저 SNR 환경에서 잔향·노이즈가 남을 가능성이 있다. 또한, DAC와 WavLM을 고정함으로써 도메인 전이 시 성능 저하가 발생할 수 있다. 향후 연구에서는 마스크 초기화 전략을 학습 가능한 형태로 확장하고, 멀티‑스피커·다중 언어 상황에 대한 일반화 능력을 검증할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기