저지연 딥 클러스터링 기반 스피커 독립 음성 분리

본 논문은 딥 클러스터링을 실시간에 적용하기 위해 세 가지 변형을 제안한다. (1) 양방향 LSTM 대신 단방향 LSTM을 사용해 온라인 임베딩을 생성하고, (2) 합성 창 길이를 32 ms에서 8 ms로 축소해 알고리즘 지연을 최소화하며, (3) 초기 버퍼 구간에서 클러스터 중심을 추정한 뒤 이후 구간을 온라인으로 분리한다. WSJ0 2인 혼합 음성 실험에서 LSTM 사용 시 SDR이 1 dB 감소하고, 8 ms 창 사용 시 추가로 2.1 d…

저자: Shanshan Wang, Gaurav Naithani, Tuomas Virtanen

저지연 딥 클러스터링 기반 스피커 독립 음성 분리
본 논문은 스피커 독립 단일 채널 음성 분리 기술인 딥 클러스터링(Deep Clustering, DC)을 저지연(real‑time) 환경에 적용하기 위한 구체적인 방법론을 제시한다. 기존 DC는 BLSTM(양방향 장단기 메모리) 네트워크와 32 ms 합성 창을 사용해 전체 신호에 대해 오프라인으로 임베딩을 추출하고, 전체 임베딩에 대해 K‑means 군집화를 수행한 뒤 이진 마스크를 생성한다. 이러한 구조는 미래 프레임 정보를 활용하므로 실시간 처리에 부적합하고, 합성 창 길이에 비례하는 알고리즘 지연이 발생한다. 연구진은 세 가지 핵심 변형을 통해 저지연 DC를 구현한다. 첫 번째는 BLSTM을 단방향 LSTM으로 교체하는 것이다. LSTM은 시간 순서대로 한 방향으로만 정보를 전달하므로, 프레임이 들어오는 즉시 임베딩을 출력할 수 있다. 네트워크 구조는 원본과 동일하게 4층, 각 층 600 유닛, 임베딩 차원 40을 유지했으며, 활성화 함수는 tanh, 출력은 L2 정규화로 단위 벡터화한다. 실험 결과, BLSTM 기반 베이스라인 대비 평균 SDR이 약 1 dB 감소했지만, 실시간 처리 가능성이라는 큰 장점을 얻었다. 두 번째 변형은 STFT 합성 창을 32 ms에서 8 ms로 단축하는 것이다. 창 길이가 짧아지면 프레임당 시간 해상도가 높아져 알고리즘 지연이 8 ms 수준으로 감소한다. 그러나 짧은 창은 주파수 해상도를 감소시켜 임베딩 품질에 부정적 영향을 미치며, 실험에서는 SDR이 추가로 2.1 dB 감소하는 현상이 관찰되었다. 이는 저지연 요구가 강한 보청기나 인공와우와 같은 응용에서 허용 가능한 손실 범위인지 판단할 때 중요한 기준이 된다. 세 번째 변형은 초기 버퍼 구간을 이용해 클러스터 중심을 미리 추정하고, 이후 구간에서는 이 중심을 고정해 마스크를 생성하는 전략이다. 버퍼 길이를 100 ms부터 1.5 s까지 변화시켜 성능을 평가했으며, 300 ms 정도면 충분히 안정적인 클러스터 중심을 얻을 수 있었다. 버퍼가 짧을수록 초기 추정 오류가 커져 SDR이 약 4.5 dB 수준까지 떨어지지만, 300 ms 이상에서는 성능 향상이 포화되는 경향을 보였다. 이는 실시간 시스템에서 초기 지연을 최소화하면서도 실용적인 분리 품질을 유지할 수 있음을 시사한다. 실험은 WSJ0 2인 혼합 데이터셋을 사용했다. 훈련 데이터는 20 000개의 혼합 음성(30 시간), 검증 데이터는 5 000개(8 시간), 테스트 데이터는 3 000개(5 시간)로 구성했으며, 모두 8 kHz로 다운샘플링했다. 테스트 셋은 두 화자가 모두 버퍼 구간 내에 활성화되도록 전처리했으며, 이는 버퍼 기반 클러스터 추정이 공정하게 평가될 수 있게 한다. 평가 지표는 BSS‑Eval 툴킷의 SDR, SIR, SAR이며, 비분리 상태의 평균 SDR은 0.1 dB였다. 표 2에 제시된 주요 결과는 다음과 같다. - BLSTM + 32 ms: SDR 7.9 dB, SIR 15.6 dB, SAR 9.2 dB (베이스라인) - LSTM + 32 ms: SDR 6.9 dB, SIR 14.5 dB, SAR 8.4 dB (BLSTM 대비 1 dB 감소) - LSTM + 8 ms: SDR 5.8 dB, SIR 13.6 dB, SAR 7.2 dB (창 길이 축소로 추가 2.1 dB 감소) - 온라인 LSTM + 8 ms + 1.5 s 버퍼: SDR 5.1 dB, SIR 12.6 dB, SAR 6.7 dB 버퍼 길이에 따른 성능 변화를 보여주는 Fig. 2에서는 100 ms 버퍼에서도 SDR 4.5 dB 수준을 유지하고, 300 ms 이상에서는 큰 폭의 성능 향상이 없음을 확인한다. 이는 짧은 버퍼만으로도 충분히 안정적인 클러스터 중심을 추정할 수 있음을 의미한다. 결론적으로, 저지연 딥 클러스터링 구현을 위해 (1) 단방향 LSTM, (2) 8 ms 합성 창, (3) 짧은 초기 버퍼를 활용하는 세 가지 설계 선택이 각각 SDR에 미치는 영향을 정량적으로 분석하였다. 각 선택은 성능 저하를 초래하지만, 실시간 음성 분리 시스템에 필수적인 지연 감소와 온라인 처리 가능성을 확보한다는 점에서 실용적이다. 향후 연구에서는 버퍼 길이를 동적으로 조절하거나, 클러스터 중심 추정에 딥 어트랙터 네트워크와 같은 대체 방법을 결합해 성능‑지연 트레이드오프를 더욱 최적화할 여지가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기