다중 화자 ASR을 위한 통합 음향 언어 모델 CALM

다중 화자 ASR을 위한 통합 음향 언어 모델 CALM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CALM은 화자 임베딩을 이용한 타깃 화자 추출과 동적 어휘 기반 컨텍스트 바이어싱을 결합한 엔드‑투‑엔드 다중 화자 자동음성인식 프레임워크이다. LibriSpeechMix와 CSJMix의 2·3인 화자 혼합 데이터에서 B‑WER/B‑CER를 크게 낮추어 기존 타깃 화자 ASR와 컨텍스트 바이어싱 방법을 능가한다.

상세 분석

본 논문은 다중 화자 상황에서 발생하는 두 가지 주요 오류, 즉 음향적 혼합에 의한 스피커 구분 실패와 도메인‑특화 어휘(고유명사·약어·전문용어) 부족으로 인한 언어적 오류를 동시에 해결하고자 한다. 이를 위해 CALM은 크게 네 가지 핵심 모듈로 구성된다. 첫째, 사전 학습된 WavLM‑Large를 프런트엔드로 사용해 프레임‑레벨 특성을 추출하고, 이를 Conformer 기반 오디오 인코더에 입력한다. 둘째, 화자 등록 음성으로부터 ECAPA‑TDNN + RawNet3 파이프라인을 통해 D‑dimensional 화자 임베딩 E_s를 얻고, FiLM(Feature‑wise Linear Modulation) 방식을 적용해 모든 인코더 레이어의 은닉 표현 H(l)을 γ(E_s)·H(l)+β(E_s) 형태로 조절한다. 이 과정은 타깃 화자 신호를 강조하면서 비타깃 화자의 간섭을 억제한다. 셋째, 동적 어휘 바이어싱 인코더(BiasEnc)는 Transformer 기반으로 biasing list B={b₁…b_N}를 입력받아 각 구문을 v_i라는 D_bias 차원의 벡터로 인코딩한다. 이렇게 생성된 동적 토큰 집합 V_d‑vocab은 정적 어휘 V_stat와 concat되어 최종 출력 레이어에서 두 개의 선형 매핑(O_stat, O_d‑vocab)으로 각각 점수를 산출한다. 가중 Softmax( concat(O_stat, O_d‑vocab) )에 bias weight μ를 적용해 동적 토큰이 과도하게 점유되지 않도록 균형을 맞춘다. 넷째, CTC와 attention 기반 디코더를 병행 학습하고, 중간 레이어에서도 CTC self‑conditioning을 적용해 동적 어휘 정보를 인코더 전반에 전파한다. 추가적으로 VAD 헤드를 달아 프레임‑레벨 화자 활동을 예측하고, BCE 손실을 통해 음성 활동 정보를 정규화한다. 학습 목표는 λ_ctc·L_ctc + λ_vad·L_vad + (1‑λ_ctc‑λ_vad)·L_att 로 구성된 다중 과제 손실이며, λ 값은 실험적으로 튜닝된다. 실험에서는 LibriSpeechMix와 CSJMix에 대해 bias list 크기 N을 0~1000까지 변화시켰으며, μ=0.1이 전체 WER와 B‑WER 사이의 최적 트레이드‑오프를 제공한다는 것을 확인했다. 결과적으로 2‑speaker LibriSpeech2Mix에서 B‑WER가 12.7%에서 4.7%로, CSJMix2에서는 B‑CER가 16.6%에서 8.4%로 감소하였다. 이는 화자‑조건화된 음향 모델이 동적 어휘 바이어싱과 결합될 때, 화자‑특화 용어를 정확히 인식하면서도 일반적인 음성 인식 성능을 유지한다는 강력한 증거이다. 또한 AMI IHM‑mix 데이터에서도 유사한 개선을 보이며, 실제 회의 환경에서도 적용 가능함을 입증한다. 전체적으로 CALM은 기존의 타깃 화자 ASR(음향 중심)과 전통적인 컨텍스트 바이어싱(언어 중심)을 별도로 최적화하던 패러다임을 넘어, 화자 임베딩을 직접 동적 어휘 레이어에 주입함으로써 음향‑언어 정보를 공동으로 학습한다는 혁신적인 설계를 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기