피치 정보 기반 그룹 희소 표현을 이용한 보컬 분리

본 논문은 단일 마이크로 녹음된 음악 신호에서 보컬과 반주를 분리하는 문제를 다루며, 기존 저‑랭크 기반 방법들의 계산 복잡도와 정보 기반 접근법의 필요성을 동시에 해결하고자 한다. 먼저, 저‑랭크 표현(LRR)과 RPCA는 트레이스 노름(특이값 합)을 최소화함으로써 저‑랭크 구조를 강제하지만, 매 반복마다 전체 행렬에 대한 SVD를 수행해야 하므로 O(n³) 수준의 연산 비용이 발생한다. 이러한 비용은 대규모 데이터셋이나 실시간 응용에 큰 제약이 된다. 이에 저자들은 ‘그룹 희소 표현(informed group‑sparse representation, GSRi)’이라는 새로운 모델을 제안한다. 핵심 아이디어는 악기 사전 D를 미리 학습하고, 반주 스펙트로그램 X를 D와 행 희소 행렬 Z의 곱으로 근사하는 동시에, 보컬 스펙트로그램 E를 직접 추정하는 것이다. 행 희소성은 ℓ₂,₁‑노름(행별 ℓ₂‑노름의 합)으로 정규화되며, 이는 사전의 대부분 행이 0이 되도록 강제한다. 실제 음악에서 사용되는 화음이나 리듬 패턴은 사전의 일부 코드만을 활성화하므로, ℓ₂,₁‑정규화는 반주의 구조적 특성을 자연스럽게 포착한다. 보컬에 대한 외부 정보를 활용하기 위해 피치 주석 E₀를 도입한다. 피치 주석은 인간 라벨링 혹은 멜로디 추적 알고리즘(MELODIA 등)으로부터 얻어지며, 보컬의 기본 주파수와 그 배수 영역을 마스크한다. 이 마스크는 보컬 스펙트로그램의 특정 주파수‑시간 셀을 강조하고, GSRi는 ‖E‑E₀‖₂² 항을 통해 이러한 정보를 정규화에 직접 반영한다. γ 파라미터는 마스크 신뢰도를 조절한다. 최적화는 ADMM(Alternating Direction Method of Multipliers) 기반으로 수행된다. 원문 제약식 X = D Z + E와 Z = J, E = B를 도입해 라그랑주 함수를 구성하고, 각 변수에 대해 닫힌 형태 해를 순차적으로 업데이트한다. J‑업데이트는 그룹 소프트 임계값 연산을 통해 ℓ₂,₁‑노름을 최소화하고, Z‑업데이트는 (I + DᵀD)⁻¹ 형태의 선형 시스템을 풀어 얻는다. B와 E는 각각 ℓ₁‑노름과 정보 기반 ℓ₂‑노름을 포함한 간단한 소프트 임계값 연산으로 해결된다. 전체 알고리즘은 반복 횟수가 적고, 행렬 곱셈 차원에서 O(k·n·(k+m))≈O(n) 복잡도를 가지며, SVD를 전혀 사용하지 않는다. 실험은 두 개의 공개 데이터셋을 사용한다. 첫 번째는 iKala 데이터셋(252곡, 30 s)으로, 44곡을 훈련, 208곡을 테스트에 사용하였다. 악기 사전 D는 NNSC(Non‑negative Sparse Coding)로 100개의 원자를 학습했으며, 피치 마스크는 기본 주파수와 그 배수에 ±80 Hz 폭을 적용해 만든다. 비교 대상은 RPCA, RPCAi(정보 기반 RPCA), LRR, LRRi, GSR, GSRi이며, 모두 동일한 ADMM 파라미터와 정규화 파라미터 탐색을 거쳤다. 평가 지표는 BSS_Eval의 SDR, SIR, SAR와 NSDR(혼합 대비 SDR 향상)이다. 결과는 다음과 같다. 정보 기반 버전(RPCAi, LRRi, GSRi)은 비정보 버전보다 일관되게 높은 NSDR을 기록했다. 특히 GSRi는 악기 부분에서 평균 0.5 dB 정도 LRRi보다 우수했으며, 보컬 부분에서는 거의 동등한 성능을 보였다. 실행 시간 측면에서는 GSR 계열이 압도적으로 빠른데, GSRi는 전체 실험을 13분 내에 마친 반면 LRRi는 30분 이상 소요되었다. 이는 SVD 제거가 가져온 실질적 이점이다. 두 번째 실험에서는 DSD100 데이터셋의 팝/싱어송라이터 서브셋을 사용해 다중 사전 확장(MGSRi)을 검증하였다. 베이스, 드럼, 기타(Other) 각각에 별도 사전을 학습하고, 이를 하나의 큰 사전 D에 병합해 동일한 GSRi 최적화를 적용했다. MGSRi는 단일 사전 GSRi와 비슷하거나 약간 개선된 성능을 보였으며, 각 사전이 담당하는 악기별 스펙트로그램을 별도로 추출할 수 있다는 장점을 제공한다. 논문의 주요 기여는 세 가지이다. 첫째, ℓ₂,₁‑노름을 이용한 그룹 희소 모델이 저‑랭크 기반 방법을 대체하면서도 선형 시간 복잡도를 제공한다. 둘째, 피치 주석을 통한 정보 기반 정규화가 보컬 분리 성능을 크게 향상시킨다. 셋째, 다중 사전 구조가 실제 음악 데이터에 적용 가능함을 실험적으로 입증한다. 향후 연구 방향으로는 (1) 실시간 구현을 위한 GPU 가속 및 스트리밍 처리, (2) 다채널(스테레오·멀티마이크) 상황에서의 확장, (3) 보컬 외에도 배경 잡음·청중 소음 등 비음성 소스까지 포괄하는 통합 모델 개발이 제시된다.

피치 정보 기반 그룹 희소 표현을 이용한 보컬 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기