다중 커널·밀집 스킵 연결을 활용한 효율적 하모닉‑퍼커시브 분리 네트워크
초록
**
본 논문은 멀티‑스케일 DenseNet 구조에 3가지 커널 형태(3×3, 13×1, 1×13)를 병렬 브랜치로 적용하고, 각 브랜치를 밀집(skip) 연결로 결합한 3W‑MDenseNet을 제안한다. MUSDB18 데이터셋을 이용한 실험에서 파라미터 55만 개 수준으로 기존 U‑Net·MDenseNet 대비 SDR·SIR·SAR 모두에서 우수한 성능을 보이며, HPSS 작업을 위한 경량‑고효율 모델임을 입증한다.
**
상세 분석
**
본 연구는 하모닉‑퍼커시브 소스 분리(HPSS)라는 특수한 오디오 분리 문제에 딥러닝 기반 인코더‑디코더 구조를 적용하면서 두 가지 핵심 설계 전략을 도입한다. 첫 번째는 DenseNet에서 영감을 얻은 밀집(skip) 연결을 활용한 MDenseNet 구조를 채택함으로써, 각 레이어가 이전 모든 레이어의 출력을 concat 형태로 받아들여 정보 흐름을 극대화하고, 파라미터 수를 최소화한다. 전통적인 U‑Net이 스케일이 깊어질수록 채널 수를 기하급수적으로 늘리는 반면, MDenseNet은 성장률(growth rate) k와 레이어 수 L을 일정하게 유지해 동일 스케일에서 파라미터가 거의 변하지 않는다. 이 설계는 특히 1 kHz‑44.1 kHz 고해상도 음악 신호를 1024‑point STFT로 변환한 512 × 128 크기의 스펙트로그램에 적용될 때, 메모리와 연산량을 크게 절감한다. 두 번째 전략은 커널 형태를 다양화한 멀티‑브랜치 구조이다. 퍼커시브 성분은 시간축에 짧고 주파수축에 넓은 수직 패턴(13 × 1)으로, 하모닉 성분은 주파수축에 짧고 시간축에 넓은 수평 패턴(1 × 13)으로 나타난다. 따라서 3 × 3 정사각형 커널을 기본으로 하면서, 13 × 1 및 1 × 13 커널을 각각 별도 브랜치에 배치해 두 종류의 패턴을 직접 학습하도록 설계하였다. 이는 기존에 단일 정사각형 커널만 사용하던 네트워크가 패턴 인식에 의존하는 비효율성을 극복하고, 각 브랜치가 특화된 특징을 추출한 뒤 최종 Dense Block에서 통합함으로써 전반적인 표현력을 향상시킨다. 학습 과정에서는 입력 스펙트로그램에 로그1p 정규화를 적용하고, 퍼커시브와 하모닉 마스크를 각각 1 × 1 시그모이드 레이어로 추정한다. 손실 함수는 두 마스크에 대한 MSE를 가중 평균(λ = 0.5)한 형태이며, Adam 옵티마이저와 조기 종료 전략을 사용해 과적합을 방지한다. 실험 결과는 3W‑MDenseNet이 파라미터 555 k 정도로 U‑Net(8.7 M)·MDenseNet(≈600 k) 대비 훨씬 가벼우면서도, SDR = 3.70 dB, SIR = 5.84 dB, SAR = 5.35 dB(퍼커시브) 및 SDR = 9.71 dB, SIR = 10.48 dB, SAR = 13.32 dB(하모닉) 등 모든 지표에서 최고점을 기록한다. 이는 밀집 연결에 의한 그래디언트 흐름 개선과, 커널 형태 다양화가 각각 시간‑주파수 구조를 효과적으로 포착함을 실증한다. 또한 파라미터 효율성은 실시간 혹은 모바일 환경에서의 적용 가능성을 크게 높인다. 전체적으로 본 논문은 HPSS라는 도메인 특성을 고려한 네트워크 설계가 성능·효율성 두 마리 토끼를 잡을 수 있음을 보여주는 좋은 사례이며, 향후 다른 오디오 분리 작업(예: 보컬‑악기 분리)에도 커널 다형성과 밀집 스킵 연결을 확장 적용할 여지를 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기