정보 기반 소스 분리와 반복 재구성 기법
초록
본 논문은 단일 채널 혼합 신호에 대해 다중 입력 스펙트로그램 역변환(MISI) 기반의 정보 기반 소스 분리(ISS) 방법을 제안한다. 시간‑주파수 일관성 유지와 재혼합 제약을 번갈아 적용하는 반복 재구성 과정을 통해 소스 신호를 복원하며, 급격한 전이(transient) 복원을 위해 이중 해상도 방식을 도입한다. 실험 결과, 제안 알고리즘은 최신 Wiener 기반 ISS와 오라클 Wiener 필터보다 왜곡 측면에서 최대 3 dB 향상된 성능을 보였지만 계산량이 크게 증가한다.
상세 분석
이 논문은 정보 기반 소스 분리(ISS) 분야에서 기존 Wiener 필터 기반 접근법의 한계를 극복하고자, 스펙트로그램 역변환 기법인 Multiple Input Spectrogram Inversion(MISI)을 확장한 새로운 프레임워크를 제시한다. 핵심 아이디어는 두 가지 제약을 교대로 적용하는 반복적인 재구성 과정이다. 첫 번째 제약은 시간‑주파수 일관성(consistency)이다. 이는 STFT와 역STFT 사이의 변환 과정에서 발생하는 위상 불일치를 최소화함으로써, 재구성된 스펙트로그램이 실제 신호의 물리적 특성을 만족하도록 만든다. 두 번째 제약은 재혼합(re‑mixing) 제약으로, 복원된 각 소스의 합이 원본 혼합 신호와 일치하도록 강제한다. 이 두 제약을 번갈아 적용함으로써, 각 반복 단계에서 소스 추정치가 점진적으로 개선된다.
알고리즘은 초기화 단계에서 각 소스의 파워 스펙트럼을 사전 정보(예: 비트레이트 제한된 코덱을 통해 전달된 에너지 비율)로부터 얻는다. 위상은 무작위 혹은 기존 Wiener 필터의 위상을 사용해 초기화한다. 이후, 각 반복에서 (1) 현재 위상을 이용해 역STFT를 수행해 시간 도메인 신호를 복원하고, (2) 복원된 신호들을 다시 STFT로 변환해 스펙트럼을 얻은 뒤, (3) 원본 혼합 스펙트럼과의 차이를 최소화하도록 스케일링한다. 이 과정에서 각 소스의 파워 스펙트럼은 사전 정보와 일치하도록 정규화된다.
특히 전이(transient) 구간에서 발생하는 급격한 에너지 변화를 정확히 포착하기 위해, 저해상도와 고해상도 두 개의 STFT 윈도우를 병렬로 사용한다. 저해상도 윈도우는 전체적인 스펙트럼 구조를 잡아주고, 고해상도 윈도우는 전이 구간의 세밀한 구조를 복원한다. 두 스펙트럼을 결합하는 방식은 가중 평균이 아니라, 전이 구간에서는 고해상도 결과를 우선시하고, 비전이 구간에서는 저해상도 결과를 활용하는 이중 해상도 전략이다.
실험은 14개의 단일 모노포닉 혼합 데이터를 사용했으며, 객관적 평가 지표로는 SDR(Signal‑to‑Distortion Ratio), SIR(Signal‑to‑Interference Ratio), SAR(Signal‑to‑Artifact Ratio)를 채택했다. 제안 방법은 동일한 사전 정보 조건 하에서 Wiener 기반 ISS보다 평균 1.5 dB3 dB 높은 SDR을 달성했으며, 특히 전이 구간에서 SAR이 크게 개선되어 인공적인 잡음이 감소함을 확인했다. 그러나 반복 횟수와 이중 해상도 처리를 포함한 계산 복잡도는 기존 방법에 비해 약 8배12배 증가하였다. 이는 실시간 적용보다는 오프라인 고품질 복원에 적합함을 시사한다.
결론적으로, 시간‑주파수 일관성 및 재혼합 제약을 결합한 반복 재구성 프레임워크는 사전 정보가 제한된 상황에서도 높은 복원 품질을 제공한다는 점에서 ISS 연구에 중요한 기여를 한다. 향후 연구에서는 계산 효율성을 개선하기 위한 가속화 기법(예: GPU 병렬 처리)이나, 다채널 확장, 그리고 비모노포닉 복합 신호에 대한 적용 가능성을 탐색할 여지가 있다.