합성 혼합을 이용한 반지도학습 모노라링 보컬 분리 마스크 네트워크

본 논문은 보컬과 반주가 섞인 음악을 반지도학습으로 분리하는 새로운 방법을 제안한다. 악기 전용 데이터와 혼합 데이터만을 이용해, 악기 신호를 복원하는 함수 g를 학습하고, 합성 혼합을 만들어 추가 손실을 적용한다. 실험 결과, 완전 지도 학습 방법에 근접하거나 능가하는 성능을 보이며, 기존 반지도학습 기법보다 우수함을 확인하였다.

저자: Michael Michelashvili, Sagie Benaim, Lior Wolf

합성 혼합을 이용한 반지도학습 모노라링 보컬 분리 마스크 네트워크
**1. 서론** 음악 신호에서 보컬과 반주를 분리하는 작업은 음악 정보 검색, 리믹싱, 자동 반주 생성 등 다양한 응용 분야에서 핵심적인 문제이다. 완전 지도 학습 방식은 대규모의 보컬‑반주 쌍이 필요하지만, 실제로는 고품질의 순수 보컬 데이터가 부족한 경우가 많다. 저자는 이러한 데이터 제약을 극복하고자, 혼합 음악(A)와 악기 전용 데이터(C)만을 이용하는 반지도학습 설정을 채택한다. **2. 관련 연구** 전통적인 비음성 소스 분리 기법으로는 ICA, RPCA, NMF 등이 있다. 최근에는 딥러닝 기반 마스크 추정 모델(GRA3, GRU‑RIS‑L, MaDT‑winNet 등)이 주류를 이루고 있다. 반지도학습 분야에서는 NES와 같은 반복적 추정 방법이 제안됐지만, 초기값에 민감하고 학습이 복잡하다는 한계가 있다. 또한, GAN을 활용한 지도 학습 방식이 소스 분포를 정밀하게 모델링하는 데 효과적이라는 점이 알려졌다. **3. 제안 방법** 핵심은 단일 매핑 함수 g를 학습하는 것이다. g는 입력 스펙트로그램 a에 대해 a ⊙ m(a) 형태의 마스크를 적용해 악기 성분을 추정한다. g는 두 가지 입력에 대해 다른 동작을 수행한다. (1) 악기 전용 샘플 c에 대해서는 항등성을 유지(g(c)=c). (2) 혼합 샘플 a에 대해서는 악기 성분을 추정하고, 보컬 성분은 a−g(a)로 얻는다. 학습을 위해 저자는 합성 혼합 \(\bar a\)를 만든다. \(\bar a = \bar b + c\) where \(\bar b\)는 현재 네트워크가 재구성한 보컬 추정치이고, c는 무작위 악기 샘플이다. 이렇게 하면 \(\bar a\)에 대한 정확한 레이블(보컬 \(\bar b\), 악기 c)이 존재하므로, 다음 네 가지 재구성 손실을 정의한다. - **L_R1**: 악기 데이터에 대한 항등성 ‖g(c)−c‖₁. - **L_R2**: 멱등성 ‖g(g(a))−g(a)‖₁. - **L_R3**: 합성 혼합에 대해 추정된 악기와 실제 악기 간 차이 ‖g(\(\bar a\))−c(\(\bar a\))‖₁. - **L_R4**: 합성 혼합에서 보컬 재구성 ‖(\(\bar a\)−g(\(\bar a\)))−\(\bar b\)(\(\bar a\))‖₁. 또한, 두 개의 GAN 손실을 도입한다. d_C는 g(a)와 실제 악기 c를 구분하고, d_A는 합성 혼합 \(\bar a\)와 실제 혼합 a를 구분한다. L_GAN_C와 L_GAN_A는 각각 Least‑Squares GAN 형태로 구현된다. 전체 목표는 재구성 손실과 GAN 손실을 가중합한 L_g이며, 판별기 손실 L_dC, L_dA는 표준 GAN 학습 규칙을 따른다. **4. 네트워크 설계** g는 이미지 자동인코더 구조를 차용한다. 인코더는 7×7, 4×4 컨볼루션과 4개의 Residual 블록(R_256)으로 구성되며, 각 레이어 뒤에 Instance Normalization과 ReLU가 적용된다. 디코더는 동일한 Residual 블록 뒤에 2단계 업샘플링(u_128, u_256)과 최종 7×7 컨볼루션을 거쳐 마스크 m(a)를 출력한다. 마스크는 시그모이드 활성화로 0~1 범위로 제한된다. 판별기 d_C와 d_A는 멀티스케일 CNN(4×4, stride 2, 채널 64→128→256→512)으로 구성되고, LeakyReLU(α=0.2)를 사용한다. **5. 구현 세부사항** 오디오 전처리는 20.48 kHz 리샘플링 → 0.825 s 길이 프레임 → 512‑point FFT (윈도우 40 ms, hop 64) → 257 × 256 스펙트로그램 → 파워‑랭크 압축(|A|^0.3) → 최고 주파수 빈도 제거 → 256 × 256 입력. 복원 시에는 원본 위상과 곱한 뒤 ISTFT를 수행한다. 학습은 Adam(β₁=0.5, β₂=0.999), 배치 1, 초기 학습률 1e‑4, 100 k iteration마다 절반 감소한다. **6. 실험** - *반지도학습 비교*: MUSDB18 데이터셋(훈련 100곡, 테스트 50곡)에서 기존 반지도학습 기법(NMF, GAN, GLOM, NES, NES‑FT)과 비교. 제안 방법은 SDR 3.2 dB, SIR 14.2 dB를 기록해 NES‑FT(2.1 dB, 7.1 dB)를 크게 앞섰다. - *완전 지도 학습 비교*: DSD100 평가 셋(50곡)에서 GRA3, CHA, STO2, JEO2, GRU‑RIS‑L, MaDT‑winNet 등과 비교. SDR에서는 STO2(3.9 dB)와 MaDT‑winNet(4.6 dB)보다 낮지만, SIR에서는 15.2 dB로 모든 지도 학습 모델을 압도했다. 이는 악기 제거 능력이 뛰어나지만 보컬 품질에 약간의 왜곡이 남을 수 있음을 의미한다. - *Ablation*: 각 손실을 제거한 결과를 표 3에 제시. L_R4와 두 GAN 손실(L_GAN_A, L_GAN_C)이 가장 큰 영향을 미치며, 이를 제외하면 SDR와 SIR이 급격히 감소한다. L_R2(멱등성)만 제거해도 성능 저하가 상대적으로 작다. **7. 논의 및 한계** 제안 방법은 합성 혼합을 통한 직접적인 레이블 제공과 적대적 정합을 결합함으로써, 보컬‑악기 분리 문제를 반지도학습 환경에서도 높은 성능으로 끌어올렸다. 그러나 현재는 고정 길이(0.825 s) 비중첩 세그먼트만 처리하므로, 장시간 의존성을 포착하지 못한다. 또한, 마스크 기반 스펙트로그램 처리 특성상 위상 정보가 그대로 사용되지 않아 보컬의 미세한 디테일이 손실될 가능성이 있다. **8. 결론 및 향후 연구** 본 연구는 (1) 합성 혼합을 이용한 복합 재구성 손실, (2) 두 단계의 GAN을 통한 도메인 정합, (3) 단일 매핑 함수 g의 항등·멱등성 제약이라는 세 가지 핵심 요소를 결합해 반지도학습 보컬 분리에서 새로운 기준을 제시한다. 향후 다중 소스(드럼, 베이스 등) 확장, 시간‑도메인 신경망(예: Wave-U-Net) 적용, 겹치는 세그먼트와 장기 시퀀스 모델링 등을 통해 성능을 더욱 향상시킬 수 있을 것으로 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기