X벡터와 베이지안 배치 활성 학습을 결합한 두 단계 음성 인식 파이프라인
초록
본 논문은 비지도 x‑벡터 클러스터링을 이용해 초기 라벨링 데이터를 선정하고, 이후 베이지안 MC‑드롭아웃 기반 불확실성 측정과 x‑벡터 클러스터링을 결합한 배치 활성 학습을 적용해 ASR 모델을 효율적으로 학습시키는 두 단계(active learning) 파이프라인을 제안한다. 실험 결과, 동질·이질·OOD 테스트 셋 모두에서 기존 방법들을 능가하며 라벨링 비용을 크게 절감한다.
상세 분석
이 연구는 자동 음성 인식(ASR) 모델 학습에 필요한 라벨링 비용을 최소화하기 위해 두 단계로 구성된 활성 학습 파이프라인을 설계하였다. 첫 번째 단계는 완전 비지도 방식으로, 스피커 분류용 DNN에서 추출한 x‑벡터를 K‑means로 클러스터링하고 각 클러스터에서 비례가 아닌 불균형 샘플링(disproportionate sampling)을 수행한다. 이 방법은 클러스터 크기에 관계없이 모든 스피커·환경 변이를 초기 학습 데이터에 포함시키며, i‑벡터 기반 방법에서 요구되던 불확실성·다양성 가중치 하이퍼파라미터를 제거한다는 장점이 있다.
두 번째 단계는 전통적인 지도(active) 학습을 확장한 배치(active) 학습이다. 현재 학습된 ASR 모델에 대해 MC‑드롭아웃을 적용해 여러 ‘드롭아웃 마스크’를 가진 서브 모델을 생성하고, 각 서브 모델이 동일 샘플에 대해 생성한 전사 결과 간의 단어 오류율(WER) 분산을 불확실성 지표로 사용한다. 이때 불확실성이 높은 샘플을 클러스터별로 일정 비율 선택함으로써, 배치 내에서도 다양성을 보장한다. 불확실성 계산은 샘플당 독립적으로 수행되므로 GPU 병렬 처리에 최적화될 수 있다.
핵심 기여는 (1) 비지도 x‑벡터 클러스터링을 활용해 초기 라벨링 데이터를 자동으로 선정하는 최초의 두 단계 AL 파이프라인 제시, (2) 배치 AL에 베이지안 불확실성 추정과 x‑벡터 기반 다양성 확보를 동시에 적용한 새로운 샘플링 전략, (3) MC‑드롭아웃 기반 베이지안 위원회에서 WER 기반 분산을 이용해 선형 복잡도로 불확실성을 측정한 점이다. 실험에서는 LibriSpeech와 자체 구축한 이질·OOD 데이터셋을 사용해, 라벨링 비율이 10% 수준에서도 기존 최첨단 방법 대비 58% 절감된 WER을 달성하였다. 특히 첫 단계에서는 무작위 샘플링보다 초기 모델의 성능이 23% 향상됐으며, 두 번째 단계에서는 반복적 라벨링을 통해 최종 모델이 전체 데이터 학습 대비 15% 이하의 라벨링 양으로 동등하거나 우수한 성능을 보였다.
이러한 결과는 x‑벡터가 스피커·채널 변이를 효과적으로 포착한다는 점과, MC‑드롭아웃이 실제 베이지안 추정에 근접한 불확실성 정보를 제공한다는 점을 실증한다. 또한 배치 AL이 단일 샘플 선택보다 라벨링 효율성을 크게 높일 수 있음을 확인한다. 향후 연구에서는 클러스터링 알고리즘을 계층적 혹은 밀도 기반 방법으로 교체하고, 자기 지도(pre‑training)와 결합해 초저자원 언어에 적용하는 방안을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기