스킵‑필터링과 재귀 추론을 활용한 모노 보컬 분리 혁신

본 논문은 모노 보컬 분리를 위한 새로운 딥러닝 프레임워크를 제시한다. 기존 방법들은 마스크를 직접 예측하거나, 예측된 스펙트럼을 기반으로 마스크를 계산하는 두 가지 접근법을 사용했으며, 대부분이 최종 단계에서 일반화 Wiener 필터링을 적용해 성능을 보정했다. 이러한 사후 처리 의존성은 마스크가 실제 최적값과 차이가 클 경우 성능 저하를 초래한다. 제안된 시스템은 입력 신호를 2049점 STFT로 변환하고, 양의 주파수만을 사용한다. 저주파 대역(F=744)만을 인코더에 제공해 파라미터 효율성을 높이며, 전체 스펙트럼은 스킵‑필터링 연결을 통해 마스크와 결합한다. 마스크 생성 파이프라인은 다음과 같다. (1) 바이‑directional GRU 인코더가 저주파 스펙트럼을 처리해 은닉 표현 H_enc을 만든다. (2) 컨텍스트 제거를 위해 양쪽 L 프레임을 제외하고 H_enc을 슬라이싱한다. (3) 재귀 추론 알고리즘을 적용해 디코더 G_dec이 H_enc을 반복적으로 변환한다. 각 반복에서 현재 출력과 이전 출력 사이의 MSE가 τ_term 이하가 되면 종료하고, 최대 iter 회수로 제한한다. (4) 최종 디코더 출력 H_dec에 선형 변환 W_mask와 편향 b_mask를 적용하고, ReLU를 통해 희소 마스크 ˜M_j를 만든다. (5) 원본 입력 스펙트럼 |Y_in|과 ˜M_j를 element‑wise 곱해 초기 보컬 스펙트럼 |ĤY_j^filt|을 얻는다. 초기 추정은 여전히 다른 악기의 잔여 에너지를 포함하므로, Denoiser 블록이 이를 정제한다. Denoiser는 FFN 기반 인코더‑디코더 구조이며, 두 단계 모두 ReLU와 선형 변환을 거쳐 최종 보컬 스펙트럼 |ĤY_j|을 산출한다. 학습 목표는 두 개의 Kullback‑Leibler 발산 손실을 결합한 형태이다. 첫 번째는 최종 출력 |ĤY_j|와 정답 |Y_j| 사이의 D_KL이며, 두 번째는 초기 마스크 적용 결과 |ĤY_j^filt|와 정답 사이의 D_KL에 가중치 λ_rec을 곱한다. λ_rec은 초기 마스크가 충분히 좋은 경우에만 적용되어 마스크 학습을 촉진한다. 추가적으로, 마스크 가중치 행렬의 대각선 L1 정규화와 디코더 가중치의 L2 정규화를 통해 과적합을 방지한다. 실험은 DSD100 개발 셋과 MedleyDB 비출혈 트랙을 사용해 모델을 훈련하고, DSD100 평가 셋으로 성능을 검증했다. 하이퍼파라미터는 검증 데이터 기반으로 설정했으며, 최적의 재귀 추론 파라미터는 iter=10, τ_term=1e‑3인 GRU‑RIS(l) 모델이다. 이 모델은 SDR 4.20 dB, SIR 7.94 dB를 기록했으며, 동일 데이터셋에서 기존 최고 성능을 보인 MIM‑DWF+ (SDR 3.66 dB, SIR 8.02 dB)보다 SDR에서 0.54 dB, SIR에서 0.08 dB 향상되었다. 특히, 일반화 Wiener 필터링 없이도 경쟁 모델과 동등하거나 더 나은 결과를 얻었다는 점이 큰 의미를 가진다. 논문의 주요 기여는 다음과 같다. (1) 마스크 생성 과정을 완전 학습 가능한 형태로 전환하여 사후 처리 의존성을 제거했다. (2) 재귀 추론을 도입해 네트워크 깊이를 동적으로 조절함으로써 더 풍부한 은닉 표현을 학습했다. (3) 희소 변환과 스킵‑필터링 연결을 결합해 초기 추정의 품질을 크게 개선했다. (4) 전체 파이프라인을 하나의 손실 함수로 최적화해 마스크와 디노이징 단계가 협력하도록 설계했다. 향후 연구 방향으로는 (a) 실시간 적용을 위한 모델 경량화, (b) 다채널 및 다악기 상황에 대한 확장, (c) 다른 음악 장르와 언어에 대한 일반화 검증, (d) 재귀 추론의 수학적 수렴 특성 분석 등이 제시될 수 있다.

스킵‑필터링과 재귀 추론을 활용한 모노 보컬 분리 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기