두 화자 대화용 교차 주의 기반 종단형 음성인식
초록
본 논문은 화자 전환 정보를 활용해 두 화자 간의 대화 흐름을 모델링하는 교차‑주의 메커니즘을 도입한 종단형 ASR 시스템을 제안한다. 발화 이력을 utterance‑level 임베딩으로 변환하고, 각각의 화자별 히스토리를 별도 큐에 저장한 뒤, 단순 평균이 아닌 주의(attention) 혹은 matchLSTM 기반의 교차‑주의를 통해 현재 화자의 발화를 예측한다. Switchboard 데이터셋에서 기존 종단형 모델 대비 WER를 1~2%p 정도 개선하였다.
상세 분석
이 연구는 기존 종단형 음성인식이 주로 음향‑언어 모델을 독립적으로 학습하고, 대화 맥락은 별도의 텍스트‑기반 LM에 의존하는 한계를 지적한다. 특히 두 화자가 교대로 말하는 상황에서는 “누가 언제 말했는가”라는 turn‑changing 정보가 발화 의미를 크게 좌우한다는 점을 강조한다. 논문은 이를 해결하기 위해 세 가지 핵심 설계를 제안한다. 첫째, 각 발화를 단어 시퀀스에서 BERT 기반 임베딩으로 변환해 고정 길이 벡터(e_k^c)로 압축한다. 이는 기존 연구가 사용한 one‑hot 평균이나 외부 word2vec보다 풍부한 의미 정보를 제공한다. 둘째, 화자별 히스토리를 별도 큐에 저장하고, 현재 화자의 디코더 입력에 두 큐를 동시에 제공한다. 여기서 두 가지 주의 메커니즘이 도입된다. (a) 단순 어텐션: 각 화자 히스토리 내 임베딩에 가중치를 부여해 가중 평균을 구한다. (b) matchLSTM 기반 교차‑주의: 한 화자의 히스토리를 “질문”, 다른 화자의 히스토리를 “본문”으로 보고, LSTM 내부에서 단계별 상호작용을 학습한다. 이는 대화 흐름을 순차적으로 추적하고, 장기 의존성을 효과적으로 포착한다는 장점이 있다. 셋째, 디코더는 기존의 CTC/Attention 구조에 추가된 대화‑컨텍스트 임베딩(att_e)와 기존 acoustic embedding, 이전 단어 임베딩을 동시에 입력받아 토큰을 예측한다. 모델 파라미터는 약 2M 정도 추가되었으며, 전체 파라미터는 34M 수준으로 기존 베이스라인(32M)과 큰 차이가 없었다. 실험에서는 Switchboard 300시간 데이터와 HUB5 Eval2000 테스트를 사용했으며, utterance‑history 길이를 6, 10, 20으로 변형해 성능 변화를 관찰했다. 결과는 matchLSTM이 20턴 히스토리에서 SWB 16.4%, CH 29.8%의 WER를 기록, 단순 어텐션보다 일관되게 약 0.2~0.3%p 개선했다. 또한 attention 가중치 시각화는 모델이 길고 의미 있는 발화에 집중함을 보여준다. 전체적으로 이 논문은 화자 간 상호작용을 명시적으로 모델링함으로써 대화형 ASR의 정확도를 향상시킬 수 있음을 실증한다. 향후 워드‑레벨 히스토리, 멀티‑스피커(>2) 상황, 외부 LM과의 결합 등 확장 가능성이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기