음성 인식 평가의 혁신: 다중 참조와 스트리밍을 위한 알고리즘 및 도구
초록
본 연구는 음성 인식 평가를 개선하는 새로운 알고리즘과 도구를 제안합니다. 핵심은 다중 참조 레이블링과 임의 길이 삽입을 지원하는 ‘MWER’ 문자열 정렬 알고리즘입니다. 이를 통해 비라틴어권 언어나 복잡한 음성 데이터의 평가 정확도를 높일 수 있습니다. 또한, 실제 러시아어 장기 음성 데이터셋 ‘DiverseSpeech-Ru’를 구축하고, 기존 데이터셋을 재레이블링하여 모델이 데이터셋 특정 레이블에 과적합되는 현상을 분석했습니다. 개선된 정렬 기반으로 스트리밍 음성 인식 평가 도구와 다중 전사 비교 시각화 도구를 개발했으며, 다양한 오프라인/스트리밍 모델을 통합한 평가 라이브러리 ‘asr_eval’을 공개합니다.
상세 분석
본 논문의 기술적 핵심은 기존 Needleman-Wunsch 알고리즘을 확장한 ‘MWER(Multi-reference Wildcard and Enhanced alignment with Relaxed insertion penalty)’ 알고리즘입니다. 이 알고리즘은 세 가지 주요 개선점을 제공합니다. 첫째, 중괄호와 파이프({A|B|C}) 구문을 사용한 다중 참조 정답을 직접 처리할 수 있습니다. 이는 숫자 표현, 굴절어 처리, 오탈자 등 텍스트 정규화만으로는 해결하기 어려운 다양한 실제 음성 변이를 포괄적으로 평가할 수 있게 합니다. 둘째, 잘 들리지 않는 음성 구간을 표시하는 와일드카드 심볼(<*>)을 도입하여, 해당 구간에서 모델이 생성한 어떤 텍스트도 오류로 간주하지 않습니다. 이는 장기 음성이나 잡음이 많은 데이터 평가 시 어노테이터의 주관적 편향을 줄이는 데 중요합니다. 셋째, 단어 간 정렬 품질을 향상시키기 위해 점수 함수를 튜플 형식으로 확장했습니다. 기존은 단순 편집 거리만 최소화했지만, MWER는 동일한 최소 오류 수를 가진 정렬 후보 중에서 문자 오류 수가 적거나 정확히 매칭된 단어 수가 많은 정렬을 선택합니다. 이는 스트리밍 평가에서 지연 시간 계산이나 시각적 비교 시 더 자연스러운 단어 대 단어 매핑을 가능하게 합니다.
또한, 모델 평가의 함정을 보여주는 중요한 실험적 통찰을 제시합니다. 기존 러시아어 데이터셋을 텍스트 정규화 방식과 다중 참조 재레이블링 방식으로 각각 처리한 후 동일한 모델을 파인튜닝했을 때, 서로 다른 학습 동역학과 최종 성능을 보였습니다. 이는 모델이 데이터셋에 특화된 레이블링 규칙(예: 특정 숫자 표현 방식)에 단순히 적응하는 현상이 발생하여, 진정한 모델 성능 향상인지 데이터셋 특정 편향에 의한 ‘착시’인지 구분하기 어렵게 만든다는 점을 시사합니다. 따라서 음성 인식 연구, 특히 비라틴어권 언어나 복잡한 음성 평가에서는 다중 참조 평가가 단일 참조 평가보다 모델의 일반화 성능을 더 신뢰성 있게 반영할 수 있습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기