베트남어 음소 기반 자동 음성 인식 혁신: ViSpeechFormer
초록
ViSpeechFormer는 베트남어의 고투명성 문자‑음소 대응을 활용해 음소 수준에서 직접 디코딩하는 엔드‑투‑엔드 ASR 프레임워크이다. ViPhonER 토크나이저로 텍스트를 22개의 초성, 145개의 운(리음), 6개의 성조 토큰으로 변환하고, Speech‑Transformer 인코더와 전용 음소 디코더를 결합한다. 두 공개 데이터셋에서 기존 문자·단어 기반 모델보다 인식 정확도와 OOV 일반화가 향상되었으며, 학습 편향에 대한 민감도도 낮다.
상세 분석
본 논문은 베트남어가 ‘음소‑문자 일대일 대응’이라는 언어학적 특성을 실용적인 ASR 시스템 설계에 직접 적용한 점에서 큰 의의를 가진다. 기존의 문자·단어 기반 디코더는 베트남어가 단음절·단어 중심이지만, 성조와 모음·자음 조합이 복잡해지면 OOV 문제와 정렬 모호성이 발생한다. 저자들은 이를 해결하기 위해 두 단계의 혁신을 제시한다. 첫째, ViPhonER 토크나이저는 베트남어 음절을 ‘초성‑리음‑성조’라는 3‑tuple 형태로 분해하고, 각각을 고정된 토큰 집합(초성 22, 리음 145, 성조 6)으로 매핑한다. 이는 어휘 규모를 163개 토큰으로 압축해 디코더 파라미터를 크게 감소시키면서도 완전한 음성‑음소 매핑을 보장한다. 둘째, Speech‑Transformer 인코더(Conformer 기반) 위에 음소 디코더를 겹쳐, 디코더 레이어마다 초기, 모음, 성조를 각각 예측하도록 설계하였다. 각 파트는 독립적인 FFN(Feed‑Forward Network)으로 처리돼 음소 간 상호작용을 효과적으로 학습한다.
실험에서는 두 개의 공개 베트남어 ASR 데이터셋(VLSP‑2020, CommonVoice‑vi)을 사용했으며, CTC·CTC‑Attention·Conformer 등 최신 베이스라인과 비교했다. 결과는 Word Error Rate(WER)와 Character Error Rate(CER) 모두에서 1.22.5%p 개선을 보였고, 특히 OOV 단어에 대한 인식률이 812%p 상승했다. 또한 학습 데이터 비율을 10%까지 축소했을 때도 성능 저하가 최소화되는 등 데이터 효율성이 입증되었다.
한계점으로는 현재 음소 사전이 베트남어 표준 발음에만 맞춰져 있어 방언이나 외래어에 대한 확장성이 제한적이다. 또한 토크나이저가 규칙 기반이므로 오류 전파가 발생할 경우 디코더가 복구하기 어려운 구조이다. 향후 연구에서는 신경망 기반의 음소‑문자 변환 모델을 도입해 규칙 의존성을 완화하고, 멀티‑톤 및 방언 데이터셋을 활용한 일반화 평가가 필요하다.
전반적으로, 베트남어와 같이 음소‑문자 투명도가 높은 언어에 대해 음소 수준 디코딩을 적용한 최초 사례이며, 다른 고투명성 언어(예: 인도네시아어, 말레이어)에도 확장 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기