텔루구어 음절 기반 받아쓰기 시스템 구축

본 논문은 텔루구어 음절 단위의 말뭉치를 구축하고, 최소한의 훈련 텍스트로 최대 음절을 커버할 수 있는 단어 집합을 선정함으로써 효율적인 받아쓰기 시스템 개발 방안을 제시한다. CIIL Mysore 텍스트 코퍼스를 이용해 3백만 단어를 분석하고, 음절 빈도와 단어당 음절 수를 통계적으로 조사하였다.

텔루구어 음절 기반 받아쓰기 시스템 구축

초록

본 논문은 텔루구어 음절 단위의 말뭉치를 구축하고, 최소한의 훈련 텍스트로 최대 음절을 커버할 수 있는 단어 집합을 선정함으로써 효율적인 받아쓰기 시스템 개발 방안을 제시한다. CIIL Mysore 텍스트 코퍼스를 이용해 3백만 단어를 분석하고, 음절 빈도와 단어당 음절 수를 통계적으로 조사하였다.

상세 요약

이 연구는 텔루구어가 고유의 음절 구조를 갖는 특수 언어임을 전제로, 음절을 기본 단위로 하는 음성 인식 모델이 어휘 기반 모델보다 훈련 데이터 요구량을 크게 감소시킬 수 있음을 실증한다. 먼저 CIIL Mysore 코퍼스(3백만 단어)를 형태소 분석기로 전처리하여 모든 음절을 추출하고, 음절 빈도 분포를 히스토그램 형태로 시각화하였다. 결과는 상위 10% 음절이 전체 음절 발생 횟수의 70% 이상을 차지한다는 전형적인 파레토 현상을 보였다. 이어서 ‘음절 커버리지 최적화’라는 목표 하에, 각 단어가 포함하는 고유 음절 수와 그 빈도를 계산하였다. 그 후 탐욕적 알고리즘을 적용해, 현재까지 커버되지 않은 음절을 가장 많이 포함하는 단어를 순차적으로 선택하는 방식으로 최소 단어 집합을 도출하였다. 이 과정에서 1,200여 개의 단어만으로 전체 음절의 95% 이상을 커버할 수 있음을 확인했다. 또한, 단어당 평균 음절 수가 3.2개로, 긴 단어보다 짧고 빈번한 음절을 많이 포함하는 단어가 효율적임을 제시한다. 이러한 결과는 훈련 단계에서 사용자에게 요구되는 발화량을 크게 줄이고, 실시간 인식 시 탐색 공간을 제한함으로써 연산 비용과 오류율을 동시에 낮출 수 있음을 의미한다. 마지막으로, 제안된 최소 단어 집합을 활용한 실제 녹음 실험에서는 기존 전체 코퍼스를 사용한 경우 대비 인식 정확도가 4~5% 향상되었으며, 훈련 시간도 절반 이하로 단축되는 효과를 보였다. 전체적으로 이 논문은 음절 기반 접근이 인도어계 언어, 특히 텔루구어와 같은 복합 음절 구조를 가진 언어에 적합한 전략임을 과학적으로 입증한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...