자동음성인식 전사 오류가 화자 식별에 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 자동음성인식(ASR) 시스템이 생성한 오류가 포함된 전사본이 화자 식별 성능에 미치는 영향을 최초로 체계적으로 조사한다. 다양한 ASR 모델을 활용해 오류율을 조절하고, 기존 텍스트 기반 저자식별 모델들을 그대로 적용해 성능 변화를 측정한다. 결과는 단어 수준 오류가 화자 식별에 큰 영향을 주지 않으며, 오히려 ASR 오류가 화자 고유의 언어적 특징을 포착해 성능을 유지하거나 향상시킬 수 있음을 보여준다.

상세 분석

이 논문은 화자 식별을 텍스트 기반 저자식별 문제로 정의하고, 자동음성인식(ASR) 전사 오류가 모델 성능에 미치는 영향을 정량적으로 분석한다. 먼저 Fisher 영어 대화 코퍼스를 기반으로 5개의 서로 다른 ASR 시스템을 선정했으며, 이들은 GigaSpeech, AssemblyAI, wav2vec2‑Switchboard, Whisper‑Turbo, TED‑LIUM3 등 다양한 학습 데이터와 아키텍처를 갖는다. 각 시스템은 전체 테스트 세트에 대해 cpWER(문자 수준 오류율)을 0%에서 32%까지 달성했으며, 전사 스타일(대문자, 구두점, 필러 단어 처리)에서도 차이를 보였다.

전사본을 얻은 뒤, 기존에 검증된 n‑gram 기반 및 Transformer 기반 저자식별 모델들을 그대로 적용했다. 주요 평가지표는 정확도와 F1 점수이며, ‘hard’ 난이도(주제 제어가 강한 상황)에서 특히 성능 변동을 집중적으로 관찰했다. 흥미롭게도, WER이 20%를 초과해도 정확도 감소폭이 미미했으며, 90% 이상 오류가 발생한 극단 상황에서도 모델은 발화 길이와 같은 메타 정보를 활용해 일정 수준 이상의 성능을 유지했다. 이는 화자 고유의 어휘 선택, 빈도 패턴, 필러 사용 방식 등이 단어 수준 오류와 무관하게 보존된다는 것을 시사한다.

또한, 저자들은 오류가 화자 특성을 반영한다는 가설을 검증하기 위해 오류 유형을 분석했다. ASR가 자주 삽입하거나 대체하는 필러(‘uh’, ‘like’)와 발음 변형은 화자마다 일관된 패턴을 보였으며, 이러한 패턴이 모델의 특징 추출 과정에 기여했다. 반면, 내용 자체가 크게 손실되는 경우(예: 90% 이상 오류)에는 내용 기반 특징이 약화되지만, 발화 길이와 같은 구조적 특징이 보조 신호로 작용해 성능 저하를 완화했다.

마지막으로, 인간 전사본을 학습에 사용한 모델이 ASR 전사본에 직접 적용될 경우 일반화 성능이 급격히 떨어지는 현상을 관찰했다. 이는 훈련‑테스트 도메인 불일치가 모델의 적응력을 제한한다는 점을 강조한다. 따라서 실제 서비스에서는 ASR 전사본에 맞춘 사전 학습 또는 도메인 적응이 필요함을 제안한다.

전반적으로 이 연구는 ASR 오류가 반드시 화자 식별 성능을 저해하지 않으며, 오히려 오류 자체가 화자 고유의 언어적 신호를 포함할 수 있음을 실증적으로 보여준다. 이는 텍스트 기반 화자 식별 시스템을 대규모 음성 데이터에 적용할 때, 인간 전사에 의존하지 않아도 충분히 높은 정확도를 기대할 수 있음을 의미한다.

자동음성인식 전사 오류가 화자 식별에 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기