위상 인식 하모닉·퍼커시브 소스 분리를 위한 볼록 최적화

본 논문은 음악 신호를 하모닉(멜로디, 코드)과 퍼커시브(드럼, 타악기) 두 종류로 분리하는 HPSS(Harmonic/Percussive Source Separation) 문제에 위상 정보를 동시에 고려한 새로운 접근법을 제시한다. 기존 연구는 주로 파워 스펙트로그램(진폭 제곱)만을 이용해 하모닉은 시간축, 퍼커시브는 주파수축으로 부드럽다는 이방성 가정을 적용했으며, 위상은 원본 믹스의 그대로 사용해 재합성 단계에서 왜곡을 유발했다. 반면 사인파 모델은 위상 진화가 즉시 주파수에 의해 선형적으로 변한다는 사실을 이용해 위상을 보정했지만, HPSS 전체 파이프라인에 위상 수정과 진폭 수정이 동시에 적용되지 못했다. 이를 해결하기 위해 저자는 즉시 위상 보정 STFT(iPC‑STFT)를 도입한다. iPC‑STFT는 각 시간 프레임의 위상을 즉시 주파수(v)와 시간 간격(a/L)을 이용해 역보정하는 행렬 E를 곱함으로써, 순수 사인파라면 복소 스펙트로그램이 시간에 따라 변하지 않게 만든다. 이 특성을 활용해 하모닉 성분에 대해 “시간 방향 미분의 Frobenius norm”을 최소화하는 정규화 항을 정의한다. 즉, W⊙D_τ(F_iPC(x_h))의 제곱합을 최소화함으로써 하모닉 복소 스펙트로그램이 시간에 매끄럽게 변하도록 강제한다. 여기서 W는 사전 추정된 하모닉 진폭을 기반으로 가중치를 부여해, 진폭이 큰 영역에서는 정규화 강도를 낮춘다. 퍼커시브 성분은 위상 구조를 가정하지 않고, 시간 프레임 별 에너지 집중성을 이용한다. ℓ2,1‑norm(그룹 sparsity) 정규화는 각 프레임의 복소값을 ℓ2‑norm으로 집계한 뒤 ℓ1‑norm을 적용해, 몇몇 프레임에 에너지가 집중되도록 만든다. 이는 퍼커시브가 순간적인 충격 형태를 갖는다는 물리적 특성과 일치한다. 전체 최적화 문제는 다음과 같이 정의된다. min_{x_h, x_p} ½‖W⊙D_τ(F_iPC(x_h))‖_F² + λ‖F(x_p)‖_{2,1} subject to x = x_h + x_p, X_h = F_iPC(x_h), X_p = F(x_p) 여기서 x는 입력 오디오, x_h와 x_p는 각각 하모닉·퍼커시브 시간 신호이며, F와 F_iPC는 일반 STFT와 iPC‑STFT이다. 제약조건은 시간 영역에서 완전 복원을 보장한다는 점에서 기존 파워 스펙트로그램 가정보다 강력하다. 문제는 볼록이므로 전역 최적해를 찾을 수 있다. 저자는 프라멀‑듀얼 스플리팅(PDS) 알고리즘을 적용해 효율적으로 풀었다. PDS는 선형 연산자와 그 전치 연산만 필요하고, 역연산을 요구하지 않으므로 메모리와 연산량이 적다. 각 단계에서 등장하는 prox 연산은 닫힌 형태로 계산 가능해 구현이 간단하다. 실험에서는 SDR(신호 대 왜곡 비율) 기준으로 기존 대표적인 HPSS 방법—Ono의 이방성 매끄러움 기반 방법, KAM, 딥러닝 기반 마스크 등—보다 높은 성능을 보였다. 특히 하모닉 성분의 위상이 원본과 유사하게 복원되어 청감적으로도 개선된 결과가 확인되었다. 핵심 기여는 다음과 같다. 1. 하모닉 성분에 대한 위상‑시간 매끄러움 정규화(iPC‑STFT 기반) 도입. 2. 퍼커시브 성분에 위상 무관한 그룹 sparsity(ℓ2,1‑norm) 정규화 적용. 3. 시간 영역 완전 복원 제약을 포함한 볼록 최적화 프레임워크 설계. 4. 프라멀‑듀얼 스플리팅을 통한 효율적인 수치 해법 제시. 이러한 기법은 HPSS뿐 아니라 위상 정보를 활용해야 하는 다른 오디오 소스 분리·복원 문제에도 확장 가능성을 제시한다.

위상 인식 하모닉·퍼커시브 소스 분리를 위한 볼록 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기