스피커 기반 벡터와 전 스피커 하드 네거티브 마이닝을 활용한 엔드투엔드 손실 함수

본 논문은 스피커 검증을 위한 임베딩 학습 과정에서 기존 손실 함수가 갖는 두 가지 주요 문제점을 지적한다. 첫째, Softmax, Center, AM‑Softmax 등은 미니배치에 포함된 스피커 수에 의존해 전체 스피커 집합을 충분히 반영하지 못한다는 점이다. 둘째, 하드 네거티브 마이닝은 메트릭 학습에서 성능을 크게 좌우하지만, 실제 구현에서는 GPU 메모리와 연산 비용 때문에 배치 단위로 제한적으로만 수행된다. 이러한 한계를 극복하기 위해 저자들은 출력층 가중치 행렬 W를 “스피커 베이스”라 정의하고, 이를 각 스피커를 대표하는 벡터로 활용한다. 이 접근법은 모든 스피커 베이스가 학습 과정에서 동시에 업데이트되므로, 미니배치 구성과 무관하게 전체 스피커를 고려할 수 있다. 제안된 두 손실 함수는 다음과 같다. 첫 번째 L_BC (Between‑Class loss)는 모든 클래스 쌍(i, j)에 대해 코사인 유사도 cos(W_i, W_j)를 최소화한다. 수식적으로는 N(N‑1)개의 쌍에 대해 cos 값을 합산한 뒤 최소화하는 형태이며, 이는 스피커 베이스가 임베딩 공간에서 균등하게 퍼지도록 강제한다. 결과적으로 클래스 간 경계가 넓어져 스피커 간 구분력이 향상된다. 두 번째 L_H (Hard‑Negative loss)는 각 샘플 e_i에 대해 현재 스피커 베이스와의 코사인 유사도는 높이고, 다른 스피커 베이스와의 유사도는 낮추는 방향으로 로스를 설계한다. 여기서 H개의 가장 높은 코사인 값을 가진 비정답 베이스를 하드 네거티브로 선정하고, 로그‑시그모이드 형태의 로스를 적용해 큰 손실을 가진 샘플에 더 큰 그래디언트를 부여한다. 이 과정은 매 미니배치마다 전 스피커에 대해 수행되므로, 기존 GE2E가 제한된 수의 스피커만을 대상으로 하는 것과 달리 전 스피커를 활용한 하드 네거티브 마이닝이 가능하다. 실험 설정은 다음과 같다. 64‑dim Mel‑filterbank을 25 ms 윈도우, 10 ms 스트라이드로 추출하고, 3 초 슬라이딩 윈도우 평균 정규화를 적용했다. ResNet‑34 구조를 변형해 128‑dim 임베딩을 출력하도록 설계했으며, Adam 옵티마이저(learning rate = 0.001)와 배치 크기 100을 사용했다. 손실 함수별 하이퍼파라미터는 표 2에 제시된 바와 같이 λ = 0.001, α = 0.5 등으로 설정했다. 성능 평가는 VoxCeleb1(1,211 스피커)과 VoxCeleb2(6,112 스피커) 데이터셋을 이용했으며, EER(Equal Error Rate)로 측정했다. 결과는 다음과 같다. 기본 Softmax만 사용했을 때 EER은 7.78%였으며, Center loss를 추가하면 6.55%로 개선되었다. AM‑Softmax는 7.31%, GE2E는 10.65%로 기대 이하였다. L_BC를 Center loss와 결합했을 때 EER은 5.96%로 약 9% 상대 개선을 보였고, L_H와 L_BC를 동시에 적용한 경우 최종 EER은 5.55%로 전체 대비 15% 정도 감소하였다. VoxCeleb2를 이용한 대규모 학습에서도 비슷한 경향이 관찰되었으며, b‑vector 기반 백엔드 스코어링을 사용해 추가적인 성능 향상을 확인했다. 시각화(t‑SNE) 결과는 스피커 베이스가 각 스피커를 명확히 구분하는 클러스터를 형성함을 보여준다. 논문의 주요 기여는 (1) 스피커 베이스라는 새로운 클래스 표현을 도입해 전체 스피커를 동시에 학습에 활용한 점, (2) 전 스피커를 대상으로 실시간 하드 네거티브 마이닝을 가능하게 한 L_H 손실을 설계한 점, (3) 기존 손실 함수와 비교해 실험적으로 유의미한 EER 감소를 입증한 점이다. 한편, 스피커 베이스 차원이 임베딩 차원에 제한되므로 매우 대규모 스피커 집합에서 메모리 요구량이 증가할 수 있다는 점과, 하드 네거티브 개수 H의 최적값을 데이터셋에 따라 조정해야 하는 점은 향후 연구 과제로 남는다. 전반적으로 이 연구는 스피커 검증 분야에서 손실 설계의 새로운 방향을 제시하며, 실제 서비스 환경에서도 대규모 스피커를 효율적으로 다룰 수 있는 기반을 제공한다.

스피커 기반 벡터와 전 스피커 하드 네거티브 마이닝을 활용한 엔드투엔드 손실 함수

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기