다중 커널 기반 희소 그래프 구축을 이용한 스펙트럴 클러스터링 기반 무감독 화자 다이어리제이션
초록
본 논문은 화자 임베딩에 대해 네 개의 다항 커널과 하나의 아코사인 커널을 이용해 여러 유사도 행렬을 만든 뒤, 각 행렬을 k‑최근접 이웃 방식으로 희소화하고 평균 융합하여 하나의 그래프를 구성한다. 이 그래프를 스펙트럴 클러스터링에 적용해 클러스터 수를 자동 추정하고, DIHARD‑III, AMI, VoxConverse 등 다양한 코퍼스에서 기존 무감독 방법들을 능가하는 DER을 달성한다.
상세 분석
이 연구는 화자 다이어리제이션에서 가장 핵심적인 단계인 클러스터링을 개선하기 위해 ‘다중 커널’과 ‘희소 그래프’라는 두 가지 강력한 아이디어를 결합하였다. 첫 번째 단계에서는 화자 임베딩에 대해 다섯 개의 커널 함수를 적용한다. 네 개는 차수 2와 3의 다항 커널(상수항 포함)이며, 하나는 차수 1의 아코사인 커널이다. 다항 커널은 내적을 제곱·세제곱함으로써 동일 화자 간 거리와 다른 화자 간 거리를 비선형적으로 확대하고, 아코사인 커널은 각 임베딩의 방향 정보를 정밀하게 반영한다. 이렇게 서로 다른 특성을 가진 커널들을 동시에 사용함으로써, 단일 커널이 놓칠 수 있는 미묘한 유사도 차이를 보완한다는 점이 큰 장점이다.
두 번째 단계에서는 각 커널 행렬을 동일한 스케일로 정규화한다. 구체적으로 최소값을 빼고 Frobenius norm으로 나누어 모든 행렬이 0~1 사이에 놓이게 만든 뒤, 자기 자신과의 연결(자기루프)을 제거한다. 이어서 k‑최근접 이웃(NN) 방식으로 각 행을 희소화한다. 여기서 k는 하이퍼파라미터 c 로 지정되며, 각 화자 임베딩에 대해 가장 유사한 c개의 이웃만을 남겨 그래프의 밀도를 크게 낮춘다. 이 과정은 노이즈와 멀리 떨어진 화자 간의 잘못된 연결을 효과적으로 차단한다.
희소화된 m개의 인접 행렬을 단순 평균(동일 가중치)으로 융합해 하나의 최종 그래프 A*를 만든 뒤, 다시 Frobenius norm으로 정규화한다. 이렇게 얻어진 그래프는 각 커널이 제공하는 다양한 유사도 정보를 균형 있게 반영하면서도, 불필요한 엣지를 최소화해 스펙트럴 클러스터링에 적합한 형태가 된다.
스펙트럴 클러스터링 단계에서는 정규화된 라플라시안 L을 구성하고, 고유값의 차이( eigengap )를 이용해 클러스터 수 k를 자동 추정한다. 이후 가장 작은 k개의 고유벡터를 모아 행렬 H를 만들고, H의 행에 대해 k‑means를 적용해 최종 화자 라벨을 얻는다. 이 과정은 기존의 자동 튜닝 스펙트럴 클러스터링(ASC)이나 p‑neighborhood 기반 방법(SC‑pNA)보다 계산량이 크게 증가하지 않으며, O(n³) 복잡도를 유지한다.
실험에서는 DIHARD‑III, AMI, VoxConverse 세 가지 대규모 코퍼스를 사용해 무감독 설정에서 DER을 평가했다. 특히 겹치는 발화 구간을 포함한 평가에서도 MK‑SGC‑SC는 기존 방법 대비 현저히 낮은 DER을 기록했으며, 일부 환경에서는 반감 수준까지 개선했다. 또한 반감독 SS‑SC와 비교했을 때도 거의 동등하거나 더 좋은 성능을 보였으며, 클러스터 수를 추정하는 경우와 오라클(k*를 제공) 경우 모두 일관된 결과를 얻었다.
본 논문의 주요 기여는 (i) 화자 임베딩에 특화된 다중 커널 설계, (ii) 스케일 정규화와 k‑NN 기반 희소화·융합을 통한 그래프 구축 프레임워크, (iii) 복잡도는 기존 스펙트럴 클러스터링 수준을 유지하면서도 무감독 화자 다이어리제이션에서 최첨단 성능을 달성한 점이다. 향후 연구에서는 커널 종류를 자동 선택하거나, 동적 k‑값 조정, 그리고 실시간 적용을 위한 근사 고유값 계산 등으로 확장 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기