딥 클러스터링을 이용한 음성 분리와 임베딩 기반 세그멘테이션

본 논문은 딥 뉴럴 네트워크가 생성한 저차원 임베딩을 이용해 스펙트로그램의 시간‑주파수 요소들을 클러스터링함으로써, 화자에 구애받지 않는 단일 채널 음성 분리를 실현한다. 학습 시 파티션 라벨을 이용해 임베딩이 이상적인 친화 행렬을 저‑랭크 근사하도록 최적화하고, 테스트 시 k‑means 등 간단한 군집화로 마스크를 복원한다. 두 화자 혼합에 대해 6 dB 정도의 SNR 향상을 보였으며, 두 화자만으로 학습했음에도 세 화자 혼합에 어느 정도 일…

저자: John R. Hershey, Zhuo Chen, Jonathan Le Roux

딥 클러스터링을 이용한 음성 분리와 임베딩 기반 세그멘테이션
본 논문은 단일 채널 음성 분리 문제를 해결하기 위해 ‘딥 클러스터링(Deep Clustering)’이라는 새로운 프레임워크를 제시한다. 전통적인 딥러닝 기반 음성 분리 방법은 주로 화자별 마스크 혹은 직접 신호 복원을 목표로 하지만, 클래스 라벨에 의존하거나 화자 수가 고정된 경우가 많아 일반화에 한계가 있다. 반면 스펙트럴 클러스터링은 파티션 라벨이 주어지면 유연하게 클러스터를 형성할 수 있으나, 고차원 친화 행렬에 대한 고비용 고유값 분해가 필요하다. 저자는 두 접근법의 장점을 결합해, 네트워크가 학습 단계에서 파티션 라벨을 이용해 임베딩을 최적화하고, 테스트 단계에서는 간단한 군집화(k‑means)만으로 마스크를 복원하도록 설계하였다. 먼저 입력 신호 x를 시간‑주파수(TF) 스펙트로그램 Xₙ으로 변환하고, 각 TF 셀 n에 대해 K 차원의 임베딩 벡터 vₙ을 생성한다. 임베딩은 정규화된 단위벡터이며, 전체 임베딩 행렬 V∈ℝ^{N×K}는 딥 뉴럴 네트워크 f_θ(x)로부터 얻어진다. 파티션 라벨 Y∈{0,1}^{N×C}는 각 TF 셀이 어느 화자(또는 파티션)에 속하는지를 나타낸다. 학습 목표는 V와 Y가 만든 친화 행렬 사이의 차이를 최소화하는 것으로, 구체적인 손실 함수는 C(θ)=‖VVᵀ−YYᵀ‖²_F 를 가중치 행렬 W로 정규화한 형태이다. 이 손실은 같은 파티션에 속한 임베딩 간 내적을 1에 가깝게, 다른 파티션 간 내적을 0에 가깝게 만든다. 수학적으로는 ‖VVᵀ−YYᵀ‖²_F 를 N×N 행렬을 직접 구성하지 않고, D=diag(YYᵀ1)와 같은 저‑랭크 행렬 연산만으로 효율적으로 구현한다. 파생식 ∂C/∂Vᵀ=4D^{-½}VVᵀD^{-½}V−4D^{-½}YYᵀD^{-½}V 를 이용해 첫 번째 순서 최적화(예: Adam)로 네트워크 파라미터를 업데이트한다. 네트워크 구조는 4개의 양방향 LSTM 레이어와 2개의 완전 연결 레이어로 구성되며, 입력은 129 차원의 로그 파워 스펙트로그램이다. 출력 차원 K는 20으로 설정해, 각 TF 셀에 20 차원 임베딩을 부여한다. 학습 데이터는 WSJ0 코퍼스를 기반으로 30시간 분량의 두 화자 혼합을 생성했으며, 화자 선택, 발화 길이, SNR(0~5 dB) 등을 무작위로 변동시켜 다양성을 확보하였다. 라벨 Y는 각 TF 셀에서 어느 화자가 에너지 우세를 보이는지를 1‑hot 형태로 표시한다. 테스트 단계에서는 학습된 네트워크로 입력 혼합 신호에 대한 임베딩 V를 계산한다. 이후 k‑means(또는 SVD 기반 차원 축소 후 k‑means)를 적용해 K개의 클러스터를 얻고, 각 클러스터를 화자 마스크로 해석한다. 마스크를 원본 스펙트로그램에 곱해 역 STFT를 수행하면 각 화자의 시간‑도메인 신호를 복원한다. 실험 결과, 두 화자 혼합에 대해 평균 SDR(Signal‑to‑Distortion Ratio) 향상이 약 6 dB였으며, 동일 모델을 그대로 적용했을 때 세 화자 혼합에서도 일정 수준의 분리 성능을 유지했다. 특히, 두 화자만으로 학습했음에도 불구하고 세 화자 상황에 일반화되는 점은 임베딩이 화자 수와 클래스에 독립적인 파티션 정보를 내재하고 있음을 보여준다. 이 방법의 장점은 다음과 같다. 첫째, 딥 네트워크가 복잡한 비선형 변환을 통해 강력한 특징을 학습하면서도, 파티션 라벨만으로 지도학습이 가능해 클래스 라벨이 필요 없다. 둘째, 저‑랭크 친화 행렬 최적화는 N≫K인 경우에도 메모리와 연산량을 크게 절감한다. 셋째, 테스트 시 간단한 군집화만으로 마스크를 얻을 수 있어 실시간 적용이 용이하다. 논문은 또한 향후 연구 방향을 제시한다. 다채널 마이크 배열을 이용한 공간 정보와 결합하거나, 이미지 세그멘테이션 등 다른 도메인에 동일한 임베딩‑클러스터링 구조를 적용하는 것이 가능하다. 또한, 현재는 스펙트로그램 기반이지만, 원시 파형에 직접 적용하는 연구도 진행될 수 있다. 전반적으로 딥 클러스터링은 학습 능력과 클러스터링 유연성을 동시에 확보함으로써, 클래스‑독립적인 음원 분리와 일반적인 파티션 문제 해결에 새로운 길을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기