DTTBSR 로테리 위치 임베딩 변환기로 강화된 음악 소스 복원 모델
본 논문은 음악 소스 복원(MSR) 과제를 위해 DTT‑BSR이라는 하이브리드 GAN 모델을 제안한다. DTTNet을 백본으로 사용하고, 로테리 위치 임베딩(RoPE) 기반 트랜스포머 블록을 추가해 장기 시간 의존성을 포착한다. 또한 듀얼‑패스 밴드‑스플릿 RNN을 도입해 다중 해상도 스펙트럼 특징을 효율적으로 처리한다. 복합 손실(L1 기반 멀티‑멜 STFT, 적대 손실, 피처 매칭)을 사용해 학습했으며, 7.1 M 파라미터 규모로 ICASS…
저자: Shihong Tan, Haoyu Wang, Youran Ni
본 논문은 음악 소스 복원(MSR)이라는 새로운 과제를 정의하고, 이를 해결하기 위한 DTT‑BSR 모델을 제안한다. MSR은 기존 음악 소스 분리(MSS)와 달리, 믹스와 마스터링 과정에서 발생한 압축, 리버브, 왜곡 등 신호 손실을 복원하면서 동시에 각 악기 스템을 분리해야 하는 복합 문제이다. 저자들은 Dual‑Path TFC‑TDF UNet(DTTNet)의 효율적인 U‑Net 구조를 백본으로 채택하고, 두 가지 혁신적인 모듈을 추가하였다. 첫 번째는 Rotary Positional Embedding(RoPE) 기반 트랜스포머 블록으로, 회전형 위치 임베딩을 통해 시간 축의 장기 의존성을 효과적으로 모델링한다. 이는 음악 신호가 갖는 복잡한 시간‑주파수 상관관계를 포착하는 데 유리하다. 두 번째는 듀얼‑패스 밴드‑스플릿 RNN 모듈로, 스펙트럼을 여러 주파수 밴드로 나눈 뒤 각 밴드에 독립적인 RNN을 적용하고, 시간‑주파수 두 차원에서 교차 연결을 수행한다. 이 구조는 고해상도 주파수 세부 정보를 보존하면서도 연산 효율성을 유지한다.
전체 아키텍처는 다음과 같다. 원시 파형을 STFT(윈도우 2048, 홉 512)로 변환해 C×T×F 형태의 복소수 스펙트럼을 얻는다. 1×1 컨볼루션을 통해 차원을 G(예: 256)로 압축한 뒤, N=2개의 다운샘플 블록을 통과한다. 각 다운샘플 블록은 Time‑Frequency Conv(3×3), TFC‑TDF, 듀얼‑패스 RNN, RoPE 트랜스포머 순으로 구성되며, 이때 특성 맵은 점차 압축되고 차원은 증가한다. 이후 bottleneck을 거쳐 대칭적인 N=2개의 업샘플 블록이 적용되며, 업샘플링 과정에서 element‑wise multiplication 형태의 스킵 연결을 사용해 정보 손실을 최소화한다. 최종 1×1 컨볼루션으로 채널 수를 원래 C(8 스템)로 복원하고, 역 STFT를 통해 파형을 재생성한다.
학습 목표는 복합 손실 L = λ_MMS·L_MMS + λ_adv·L_adv + λ_feat·L_feat 로 정의된다. L_MMS는 여러 윈도우 크기의 멜 스펙트럼 L1 차이를 계산해 주파수‑시간 정확도를 강화한다. L_adv는 EnCodec 기반 멀티‑주파수 디스크리미네이터와의 힌지 손실로, 생성된 오디오가 실제와 구분되지 않도록 한다. L_feat는 디스크리미네이터 내부 특징 맵 간 L1 차이를 최소화해 훈련 안정성을 높인다. 가중치는 λ_MMS=45.0, λ_adv=2.0, λ_feat=4.0으로 설정되어, 정량적 정확도와 청감적 사실성을 균형 있게 최적화한다.
데이터는 RawStems(578곡, 8 스템, 총 354 h)를 사용했으며, 다이나믹 레인지 컴프레션, 하모닉 디스토션, 리버브, 랜덤 리샘플링을 통한 데이터 증강을 적용했다. 학습은 AdamW 옵티마이저(학습률 0.002)로 1 M 스텝, 배치 사이즈 2, RTX 5090 한 대에서 약 26시간 수행되었다. 평가에는 MSRBench를 사용했으며, 객관적 지표로는 Multi‑Mel SNR(MMSNR), Zimtohrli, FAD‑CLAP을, 주관적 지표로는 MOS 기반 청감 평가를 사용했다.
실험 결과, DTT‑BSR은 MMSNR에서 0.5011(베이스라인 0.4020)로 24.6% 향상, FAD‑CLAP에서 0.5660(베이스라인 0.7545)으로 24.9% 감소를 달성했다. Zimtohrli는 0.0216으로 베이스라인과 동일했지만, 전체적인 성능 향상이 확인되었다. 특히 기타, 키보드, 오케스트라 스템에서 다른 최신 모델을 앞섰으며, 중·고주파수 현악기 복원에 강점을 보였다. 반면 베이스와 드럼 등 저주파 스템에서는 개선 폭이 제한적이었다.
결론적으로, DTT‑BSR은 7.1 M 파라미터라는 경량화된 규모에도 불구하고, RoPE 트랜스포머와 듀얼‑패스 밴드‑스플릿 RNN을 결합해 장기 시간 의존성과 다중 해상도 스펙트럼 처리를 동시에 구현하였다. 이는 MSR 과제에서 높은 객관적·주관적 점수를 얻는 데 기여했으며, 향후 저주파 스템에 특화된 모듈 추가나 멀티‑스케일 디스크리미네이터와의 협업을 통해 전체 복원 품질을 더욱 향상시킬 여지를 남긴다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기