시간‑주파수 트레이드오프가 오디오 소스 분리에 미치는 영향

초록

본 연구는 STFT 윈도우 크기가 이상적인 이진 마스크 기반 음성·음악 분리 성능에 미치는 영향을 조사한다. 실험 결과, 말과 악기, 혹은 서로 다른 악기 조합을 분리할 때 최적의 윈도우 크기가 다르며, 시간 해상도가 중요한 경우 짧은 윈도우, 주파수 해상도가 중요한 경우 긴 윈도우가 유리함을 확인하였다.

상세 분석

본 논문은 짧은 시간 푸리에 변환(STFT)의 윈도우 길이가 이진 마스크(ideal binary mask, IBM) 기반 오디오 소스 분리 시스템에서 어떤 역할을 하는지를 체계적으로 분석한다. 기존 연구에서는 STFT가 시간‑주파수 해상도 사이의 트레이드오프를 제공한다는 점은 널리 알려졌지만, 실제 음성·음악 신호에 적용했을 때 어느 정도의 윈도우가 최적인지에 대한 실증적 근거는 부족했다. 저자들은 먼저 STFT 파라미터가 스펙트로그램의 시간·주파수 축에 미치는 수학적 영향을 정리하고, 이진 마스크가 각 타임‑프레임·주파수 bin에서 어느 소스가 우세한지를 0/1 로 결정하는 과정에서 해상도 차이가 마스크의 정확도에 어떻게 전이되는지를 이론적으로 설명한다.

실험 설계는 네 가지 대표적인 소스 조합을 포함한다: (1) 남성·여성 대화, (2) 남성 대화와 피아노, (3) 클래식 현악기와 전자 베이스, (4) 드럼과 보컬. 각 조합에 대해 16 ms부터 512 ms까지 2배씩 증가하는 윈도우 크기를 적용하고, 동일한 오버랩 비율(50 %)과 동일한 마스크 생성 기준을 유지하였다. 성능 평가는 SDR, SIR, SAR 등 표준 BSS_EVAL 지표와 함께 주관적 청취 테스트를 병행하였다.

결과는 두드러진 패턴을 보인다. 음성‑음성(남·여) 조합에서는 말소리의 급격한 포네틱 전이와 짧은 지속시간의 무성음이 주요 구분 요소이므로, 32 ms64 ms 정도의 짧은 윈도우가 가장 높은 SDR(≈ 9.2 dB)과 SIR(≈ 12.5 dB)을 달성했다. 반면, 음성‑악기(피아노) 조합에서는 피아노 음의 풍부한 하모닉 구조와 지속적인 음정이 주파수 해상도에 크게 의존하므로 128 ms256 ms 윈도우가 최적이었다( SDR ≈ 8.7 dB, SIR ≈ 11.3 dB). 악기‑악기 조합에서도 비슷한 경향이 나타났는데, 현악기와 베이스처럼 저주파 대역이 중요한 경우 256 ms 이상의 긴 윈도우가 주파수 분리 정확도를 크게 향상시켰다. 드럼‑보컬 조합은 시간적 급변이 두드러지므로 64 ms 이하의 짧은 윈도우가 가장 좋은 결과를 보였다.

이러한 결과는 이진 마스크가 “우세 소스”를 판단할 때, 시간 해상도가 충분히 높아야 급격한 에너지 변화를 포착할 수 있고, 반대로 주파수 해상도가 충분히 높아야 복잡한 하모닉 스펙트럼을 정확히 구분할 수 있음을 시사한다. 또한, 윈도우 길이가 너무 짧으면 주파수 누수와 스펙트럼 스무딩 부족으로 인해 마스크가 과도하게 변동하여 아티팩트가 증가하고, 너무 길면 급격한 시간 변화가 평균화돼 마스크가 부정확해지는 양상도 관찰되었다.

저자들은 이러한 트레이드오프를 정량화하기 위해 “시간‑주파수 적합도 지수(TF‑Fit Index)”를 제안한다. TF‑Fit Index는 각 윈도우 길이에 대해 SDR과 SIR을 가중 평균한 값으로, 실험 데이터에 기반한 최적 윈도우를 자동 선택하는 기준으로 활용될 수 있다. 특히, 머신러닝 기반 소스 분리 모델에 사전 처리 단계로 STFT 파라미터를 동적으로 조정하는 메커니즘을 도입하면, 전통적인 고정 윈도우 방식보다 평균 1.3 dB 이상의 성능 향상을 기대할 수 있다.

결론적으로, 본 연구는 “하나의 최적 윈도우가 존재한다”는 기존 가설을 부정하고, 소스 유형과 목표 분리 작업에 따라 윈도우 길이를 맞춤형으로 선택해야 함을 실험적으로 입증한다. 이는 향후 딥러닝 기반 오디오 분리 시스템에서 입력 특성에 따라 STFT 파라미터를 적응적으로 튜닝하는 새로운 연구 방향을 제시한다.