시간‑주파수 스캐터링으로 만든 음악 메타머
초록
본 논문은 Kymatio 라이브러리의 공동 시간‑주파수 스캐터링(JTFS)을 이용해 어떠한 오디오 녹음에서도 청각적 유사성을 유지하는 “음악 메타머”를 자동으로 합성하는 방법을 제시한다. 전처리 없이 파형을 직접 최적화하며, 시간·주파수 변환에 대한 국소 평균을 통해 일정 범위의 시간 이동과 음정 변화를 불변하게 만든다. 구현 세부와 관련 알고리즘을 비교 분석하고, 음악 인지 실험에 활용할 수 있는 최소쌍(minimal pair) 생성 가능성을 논의한다.
상세 분석
이 논문은 음악 메타머라는 개념을 색채학의 메타머와 유사하게 정의하고, 청각적 유사성을 수치적으로 보장하는 신호 합성 프레임워크를 제시한다. 핵심 기술은 공동 시간‑주파수 스캐터링(JTFS)이며, 이는 두 단계의 파형 변환으로 구성된다. 첫 단계에서는 Morlet 파형을 이용해 로그‑주파수 축에 걸친 연속적인 밴드패스 필터뱅크를 적용하고 복소수 모듈러스를 취해 1차 스케터링 텐서 U₁을 만든다. 두 번째 단계에서는 시간 및 로그‑주파수 방향 모두에 대해 추가적인 Morlet 파형(시간 변조율 α와 주파수 변조 스케일 β)을 적용해 2차 텐서 U₂를 얻는다. 여기서 중요한 점은 각 텐서에 대해 Gaussian 저역통과 필터 φ_T와 φ_F를 적용해 국소 평균을 수행함으로써, 시간‑주파수 영역에서 T초 이내와 F 옥타브 이내의 변형에 대해 불변성을 확보한다는 것이다.
재구성 단계에서는 초기 잡음 신호를 Euclidean 손실 E(y)=‖S₁(x)−S₁(y)‖²+‖S₂(x)−S₂(y)‖²의 그래디언트에 따라 점진적으로 업데이트한다. Kymatio의 자동 미분(back‑propagation) 기능을 활용해 복소수 파형 변환 연산의 에르미트 수반 연산을 역전파함으로써, 손실의 미분을 효율적으로 계산한다. 구체적으로는 (5)‑(7)식에 제시된 대로 2차 스케터링 텐서 ∇U₂ → ∇U₁ → ∇E 의 순서로 전파한다. 이 과정은 파라미터 m(모멘텀)과 µ(학습률) 등을 조절해 최적화 안정성을 높인다.
구현 측면에서는 두 개의 필터뱅크가 핵심이다. 첫 번째는 로그‑주파수 축에 대해 Q₁ 품질인자를 갖는 상수‑Q와 상수‑대역폭 구간을 혼합한 설계이며, 두 번째는 시간 변조 전용 필터뱅크(Q₂)와 주파수 변조 전용 필터뱅크(Q_f)로 구성된다. 코드 스니펫은 파라미터 xi, sigma 를 단계별로 감소시키는 루프와, “elbow” 지점 이후에는 등간격 감소를 적용하는 방식을 보여준다. 필터 적용은 FFT 기반의 복소수 곱(CDGMM)과 서브샘플링을 결합해 메모리 효율성을 확보한다.
시간‑주파수 스케터링의 두 번째 단계는 “폭‑우선” 탐색을 채택한다. 이는 깊은 경로에 해당하는 n₂ 루프가 외부에, 얕은 경로 n₁ 루프가 내부에 배치되어, 로그‑주파수 축에 대한 스케터링을 수행할 때 필요한 모든 1차 경로를 메모리에 보관한다. 또한, 복소수 필터의 부호를 뒤집는 “wavelet spinning” 기법을 통해 양·음의 주파수를 모두 처리한다.
관련 연구와의 비교에서는 STRF, MPS, Gabor 필터뱅크와의 유사성을 강조한다. STRF와 마찬가지로 JTFS는 시간‑주파수 변조를 포착하지만, 다중 해상도와 비선형 모듈러스를 결합해 더 풍부한 통계량을 제공한다. MPS와는 에너지 스펙트럼을 평균하는 방식이 비슷하나, JTFS는 위상 정보를 보존하면서도 비선형 변환을 포함한다. Gabor 필터뱅크와는 필터 설계가 유사하지만, JTFS는 연속적인 스케터링 경로와 저역통과 평균을 통해 변형 불변성을 명시적으로 구현한다.
결과적으로, 이 방법은 전처리 없이 원본 오디오의 “전역적인” 청각적 특성을 보존하면서도 파형을 자유롭게 변형할 수 있는 최소쌍 생성에 유용하다. 향후 음악 인지 실험에서 청각적 기억과 변형 불변성 메커니즘을 정량화하는 도구로 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기