DTTBSR 로테리 위치 임베딩 변환기로 강화된 음악 소스 복원 모델

본 논문은 음악 소스 복원(MSR)이라는 새로운 과제를 정의하고, 이를 해결하기 위한 DTT‑BSR 모델을 제안한다. MSR은 기존 음악 소스 분리(MSS)와 달리, 믹스와 마스터링 과정에서 발생한 압축, 리버브, 왜곡 등 신호 손실을 복원하면서 동시에 각 악기 스템을 분리해야 하는 복합 문제이다. 저자들은 Dual‑Path TFC‑TDF UNet(DTTNet)의 효율적인 U‑Net 구조를 백본으로 채택하고, 두 가지 혁신적인 모듈을 추가하였다. 첫 번째는 Rotary Positional Embedding(RoPE) 기반 트랜스포머 블록으로, 회전형 위치 임베딩을 통해 시간 축의 장기 의존성을 효과적으로 모델링한다. 이는 음악 신호가 갖는 복잡한 시간‑주파수 상관관계를 포착하는 데 유리하다. 두 번째는 듀얼‑패스 밴드‑스플릿 RNN 모듈로, 스펙트럼을 여러 주파수 밴드로 나눈 뒤 각 밴드에 독립적인 RNN을 적용하고, 시간‑주파수 두 차원에서 교차 연결을 수행한다. 이 구조는 고해상도 주파수 세부 정보를 보존하면서도 연산 효율성을 유지한다. 전체 아키텍처는 다음과 같다. 원시 파형을 STFT(윈도우 2048, 홉 512)로 변환해 C×T×F 형태의 복소수 스펙트럼을 얻는다. 1×1 컨볼루션을 통해 차원을 G(예: 256)로 압축한 뒤, N=2개의 다운샘플 블록을 통과한다. 각 다운샘플 블록은 Time‑Frequency Conv(3×3), TFC‑TDF, 듀얼‑패스 RNN, RoPE 트랜스포머 순으로 구성되며, 이때 특성 맵은 점차 압축되고 차원은 증가한다. 이후 bottleneck을 거쳐 대칭적인 N=2개의 업샘플 블록이 적용되며, 업샘플링 과정에서 element‑wise multiplication 형태의 스킵 연결을 사용해 정보 손실을 최소화한다. 최종 1×1 컨볼루션으로 채널 수를 원래 C(8 스템)로 복원하고, 역 STFT를 통해 파형을 재생성한다. 학습 목표는 복합 손실 L = λ_MMS·L_MMS + λ_adv·L_adv + λ_feat·L_feat 로 정의된다. L_MMS는 여러 윈도우 크기의 멜 스펙트럼 L1 차이를 계산해 주파수‑시간 정확도를 강화한다. L_adv는 EnCodec 기반 멀티‑주파수 디스크리미네이터와의 힌지 손실로, 생성된 오디오가 실제와 구분되지 않도록 한다. L_feat는 디스크리미네이터 내부 특징 맵 간 L1 차이를 최소화해 훈련 안정성을 높인다. 가중치는 λ_MMS=45.0, λ_adv=2.0, λ_feat=4.0으로 설정되어, 정량적 정확도와 청감적 사실성을 균형 있게 최적화한다. 데이터는 RawStems(578곡, 8 스템, 총 354 h)를 사용했으며, 다이나믹 레인지 컴프레션, 하모닉 디스토션, 리버브, 랜덤 리샘플링을 통한 데이터 증강을 적용했다. 학습은 AdamW 옵티마이저(학습률 0.002)로 1 M 스텝, 배치 사이즈 2, RTX 5090 한 대에서 약 26시간 수행되었다. 평가에는 MSRBench를 사용했으며, 객관적 지표로는 Multi‑Mel SNR(MMSNR), Zimtohrli, FAD‑CLAP을, 주관적 지표로는 MOS 기반 청감 평가를 사용했다. 실험 결과, DTT‑BSR은 MMSNR에서 0.5011(베이스라인 0.4020)로 24.6% 향상, FAD‑CLAP에서 0.5660(베이스라인 0.7545)으로 24.9% 감소를 달성했다. Zimtohrli는 0.0216으로 베이스라인과 동일했지만, 전체적인 성능 향상이 확인되었다. 특히 기타, 키보드, 오케스트라 스템에서 다른 최신 모델을 앞섰으며, 중·고주파수 현악기 복원에 강점을 보였다. 반면 베이스와 드럼 등 저주파 스템에서는 개선 폭이 제한적이었다. 결론적으로, DTT‑BSR은 7.1 M 파라미터라는 경량화된 규모에도 불구하고, RoPE 트랜스포머와 듀얼‑패스 밴드‑스플릿 RNN을 결합해 장기 시간 의존성과 다중 해상도 스펙트럼 처리를 동시에 구현하였다. 이는 MSR 과제에서 높은 객관적·주관적 점수를 얻는 데 기여했으며, 향후 저주파 스템에 특화된 모듈 추가나 멀티‑스케일 디스크리미네이터와의 협업을 통해 전체 복원 품질을 더욱 향상시킬 여지를 남긴다.

DTTBSR 로테리 위치 임베딩 변환기로 강화된 음악 소스 복원 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기