주파수 이동에 강인한 커널 가법 모델링을 통한 오디오 소스 분리

본 논문은 기존 K‑NN 기반 Kernel Additive Modelling(KAM)의 한계를 극복하기 위해, 로그‑주파수 스펙트럼에서 주파수 이동을 허용하는 shift‑invariant 커널을 제안한다. Specmurt 변환과 빠른 컨볼루션을 이용한 가속 기법을 도입해 계산 복잡도를 크게 낮추면서도, 피치 변동이 큰 악기나 짧은 구간에서도 효과적인 소스 복원을 가능하게 한다.

저자: Delia Fano Yela, Sebastian Ewert, Ken OHanlon

주파수 이동에 강인한 커널 가법 모델링을 통한 오디오 소스 분리
본 논문은 오디오 소스 분리 분야에서 비지도 방식의 해석 가능성과 적응성을 유지하면서, 기존 Kernel Additive Modelling(KAM)의 핵심 한계인 “시간·주파수 반복성” 가정의 제약을 완화하고자 한다. 전통적인 KAM은 K‑Nearest‑Neighbour(K‑NN) 커널을 사용해 각 시간‑주파수(bin)마다 가장 유사한 K개의 프레임을 선택하고, 선택된 값들의 중앙값(median) 등 강인한 통계량을 통해 원본 소스를 복원한다. 이때 유사도는 전체 프레임을 유클리드 거리로 비교하므로, 동일 악기의 피치가 변하거나 짧은 구간만 존재하는 경우 유사 프레임을 찾지 못해 성능이 급격히 저하된다. 이를 극복하기 위해 저자들은 로그‑주파수 축을 이용한 Constant‑Q Transform(CQT) 위에 “shift‑invariant” 커널 I_s 를 정의한다. I_s는 각 프레임 X(:,t)에 대해 주파수 축으로 –Δ…+Δ 만큼 시프트된 버전 X_δ(:,t)를 모두 생성하고, 이들에 대해 K‑NN 탐색을 수행한다. 즉, (f,t)와 (f+δ, t′)가 서로 유사하다고 판단되면, δ가 허용 범위 내에 있을 경우 두 프레임을 동일 소스의 반복 패턴으로 간주한다. 이 접근법은 피치가 변해도 조화 구조가 유지되는 특성을 활용해, “다른 피치의 같은 악기”를 동일 소스로 인식하게 만든다. 하지만 직접적인 구현은 모든 시프트에 대해 거리 계산을 해야 하므로 복잡도가 O(T²·F²) 로 급증한다. 저자들은 두 단계의 가속 전략을 제시한다. 첫 번째 단계는 Specmurt 변환이다. CQT의 각 프레임에 대해 푸리에 변환을 수행해 스펙트럼의 로그‑주파수 영역에서 다시 푸리에 변환을 취함으로써, 위상 정보를 제거하고 조화 패턴만을 보존한다. 이 변환은 피치 정보를 없애고 패턴 자체만을 남기므로, 주파수 시프트에 불변하게 된다. Specmurt 도메인에서 Euclidean 거리를 계산하면, 전체 시프트를 고려한 K‑NN 탐색을 한 번만 수행하면 되므로 복잡도가 O(T²·(F+log T)) 로 감소한다. 두 번째 단계는 실제 시프트 값을 복원하는 과정이다. Specmurt 단계에서 선택된 K개의 후보 프레임에 대해, 원본 CQT 도메인에서 정확한 시프트 δ를 찾아야 한다. 이를 위해 두 프레임 Y와 Z가 시프트 관계에 있다고 가정하고, Y = H * Z 로 모델링한다. 여기서 H는 시프트를 나타내는 임펄스 응답이며, FFT와 역 FFT를 이용한 디컨볼루션 H = F⁻¹( F(Y)·/F(Z) ) 로 빠르게 계산한다. H는 대부분 0인 희소 벡터이며, 유의미한 피크가 나타나는 위치가 정확한 δ가 된다. 이 과정은 O(F log F) 의 비용만을 요구한다. Specmurt 기반 거리 측정은 위상 정보를 무시하기 때문에, 거리값이 작다고 해서 실제 CQT 도메인에서 완벽히 일치한다는 보장은 없다. 이를 보완하기 위해 저자들은 “프루닝” 전략을 도입한다. Specmurt 단계에서 K+P 개의 후보를 먼저 선정하고, 이후 실제 CQT 도메인에서 다시 거리 계산을 수행해 최종 K개의 가장 유사한 프레임을 선택한다. 이렇게 하면 계산량은 크게 늘어나지 않으면서도, 최종 커널이 실제 음향적 유사성을 반영하도록 보장한다. 실험은 스튜디오 녹음에서 악기 단일 클립을 복원하고, 기침·문 닫힘·문제음 등 비음악적 간섭을 제거하는 시나리오를 사용하였다. 평가 지표로는 Signal‑to‑Distortion Ratio(SDR), Signal‑to‑Interference Ratio(SIR), Signal‑to‑Artifact Ratio(SAR)를 사용했으며, shift‑invariant 커널을 적용한 경우 기본 K‑NN 기반 KAM 대비 평균 1.5 dB 이상의 향상을 보였다. 또한 가속 기법을 적용한 후에도 처리 시간은 원본 대비 2~3배 정도만 증가했으며, 실시간 혹은 근실시간 처리에 충분히 근접한 속도를 유지했다. 결론적으로, 본 논문은 (1) 로그‑주파수 기반의 주파수 시프트 허용 커널 설계, (2) Specmurt 변환을 통한 효율적인 유사도 탐색, (3) FFT 기반 디컨볼루션을 이용한 정확한 시프트 추정, (4) 프루닝을 통한 정밀도 보강이라는 네 가지 핵심 기여를 통해, 기존 KAM의 피치 변동에 대한 취약성을 근본적으로 해결하고, 계산 효율성까지 확보한 새로운 비지도 소스 분리 프레임워크를 제시한다. 향후 연구에서는 다중 소스 상황에서의 확장, 다른 비지도 모델과의 융합, 그리고 실시간 구현을 위한 GPU 최적화 등을 탐색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기