무지도 말뭉치를 활용한 음성 컨텍스트 임베딩
본 논문은 전사나 화자 라벨 없이 9500시간 규모의 영어 음성 데이터를 이용해 컨텍스트 기반 임베딩인 “Unspeech”를 학습한다. Siamese CNN 구조와 음성 윈도우 간의 양성·음성 샘플링을 통한 로지스틱 손실을 사용해 임베딩을 최적화하고, 이를 화자 구분, 발화 클러스터링, TDNN‑HMM 음성 인식 모델의 추가 입력 특징으로 평가한다. i‑vector와 비교했을 때 화자 구분 정확도는 다소 낮지만, 클러스터링과 특히 도메인 외 C…
저자: Benjamin Milde, Chris Biemann
본 논문은 전사나 화자 라벨 없이 대규모 영어 음성 데이터를 활용해 “Unspeech”라는 새로운 컨텍스트 임베딩을 제안한다. 연구 동기는 음성 인식 및 화자 인식 시스템에서 흔히 마주치는 녹음 환경, 마이크 종류, 화자 특성 등 다양한 변동성을 효과적으로 다루기 위함이다. 기존에는 i‑vector와 같은 고정 길이 화자 임베딩을 사용하거나, TDNN‑HMM 모델에 넓은 시간 윈도우를 직접 입력하는 방식이 주를 이뤘다. 그러나 이러한 방법들은 라벨이 필요하거나, 컨텍스트 정보를 충분히 포착하지 못한다는 한계가 있다.
Unspeech는 이러한 문제를 해결하기 위해 “같은 시간에 발생한” 음성 윈도우는 서로 비슷한 임베딩을 갖도록, “무관한” 윈도우는 멀리 떨어지도록 학습한다. 구체적으로, 64×40 차원의 FBANK 스펙트로그램을 입력으로 하는 VGG‑16 스타일의 16계층 CNN을 두 개 공유하고, 각각을 타깃 윈도우와 컨텍스트 윈도우에 적용한다. 두 임베딩 벡터의 내적에 학습 가능한 스칼라 α를 곱해 로짓을 만든 뒤, 양성(연속 윈도우)과 음성(무작위 샘플) 쌍을 구분하는 로지스틱 손실을 최소화한다. 양성 샘플은 타깃 윈도우의 좌우에 존재하는 연속 윈도우를 사용하고, 음성 샘플은 완전히 다른 발화에서 무작위로 추출한다. 손실 함수는 양성 샘플에 대해 k배(음성 샘플 수)만큼 가중치를 부여해 양성과 음성의 학습 균형을 맞춘다.
데이터는 세 가지 코퍼스로 구성된다. 첫 번째는 TED‑LIUM V2(211시간, 2,112명)이며, 두 번째는 Common Voice V1(242시간, 5,000명 이상)이다. 세 번째는 2016‑2018년 사이에 YouTube에서 수집한 TEDx 강연(9,505시간, 41,520 강연)으로, 전처리 없이 그대로 사용하였다. 이렇게 다양한 규모와 도메인의 데이터를 통해 Unspeech가 라벨이 없는 상황에서도 의미 있는 임베딩을 학습할 수 있음을 검증한다.
평가에서는 세 가지 주요 실험을 수행한다. 첫째, 화자 동일/다름 판별 실험으로, 두 발화가 같은 화자인지 여부를 임베딩 거리(내적 혹은 유클리드)로 판단한다. i‑vector는 0.4~1% 수준의 낮은 EER을 기록한 반면, Unspeech는 2~5% 수준으로 다소 높은 오류율을 보였지만, 특히 64프레임 윈도우와 speed‑perturbation을 적용한 모델이 가장 좋은 성능을 냈다. 둘째, HDBSCAN 기반 클러스터링 실험에서는 Unspeech와 i‑vector 모두 의미 있는 클러스터를 형성했으며, 훈련 집합에서는 Unspeech가 ARI와 NMI에서 i‑vector보다 우수했다. 클러스터 분석 결과, 같은 강연 내에서도 화자별로 구분되는 경향이 강했으며, 배경 잡음이나 발화 스타일 차이까지 반영된 것을 확인했다. 셋째, TDNN‑HMM 음성 인식 모델에 Unspeech를 적용한 실험이다. 여기서는 두 가지 활용법을 시험했다. (1) Unspeech 기반 클러스터 ID를 화자 라벨 대신 사용해 GMM‑HMM 및 TDNN‑HMM 모델을 학습했으며, 이는 기존 “발화당 한 화자” 설정과 비슷하거나 약간 개선된 WER를 제공했다. (2) Unspeech 임베딩 자체를 i‑vector와 병합하거나 단독으로 TDNN‑HMM의 입력 특징에 추가했다. 특히 i‑vector와 Unspeech를 결합한 경우, 도메인 외 Common Voice 테스트에서 WER가 0.2~0.3% 감소하는 효과를 보였다.
전체적으로 Unspeech는 라벨이 없는 대규모 음성 데이터에서 컨텍스트 정보를 효과적으로 학습한다는 점에서 의미가 크다. 화자 특성뿐 아니라 배경 잡음, 발화 스타일 등 다양한 요인을 포괄적으로 반영하므로, 기존 i‑vector와 보완적인 역할을 수행한다. 또한 구현이 비교적 단순하고, VGG‑style CNN과 로지스틱 손실만으로도 좋은 성능을 얻을 수 있어 실용성도 높다. 향후 연구에서는 멀티모달 컨텍스트(텍스트, 비디오)와 결합하거나, 더 큰 규모의 비영어 데이터에 적용해 범용성을 검증할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기