안드로이드 기반 펀자브어 TTS 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 안드로이드 스마트폰에서 구르무키 문자로 표기된 펀자브어 텍스트를 음성으로 변환하는 합성 시스템을 개발한다. 음소 단위의 연결형(concatenative) 합성 방식을 채택하고, 음소 데이터베이스 구축, 텍스트 정규화, 발음 변환, 단위 선택 및 연결 알고리즘을 구현하였다. 모바일 기기의 제한된 메모리와 처리 속도를 고려해 파일 크기와 실시간 응답 시간을 최적화했으며, 시스템의 실용성을 검증하였다.

상세 분석

본 연구는 모바일 환경, 특히 안드로이드 플랫폼에서 펀자브어 텍스트‑투‑스피치(TTS) 서비스를 제공하기 위한 기술적 토대를 마련한다는 점에서 의미가 크다. 먼저, 펀자브어는 구르무키(Gurmukhi) 스크립트를 사용하며, 인도·파키스탄 지역에서 10여억 명이 사용하는 주요 언어임에도 불구하고 기존 안드로이드용 TTS 엔진에 대한 지원이 거의 없었다. 이러한 공백을 메우기 위해 저자는 연결형(concatenative) 합성 방식을 선택했는데, 이는 사전에 녹음된 음소(phoneme) 단위를 저장하고 필요 시 이를 연결해 자연스러운 음성을 생성하는 전통적인 방법이다. 음소 단위는 언어학적으로 가장 작은 발음 단위이므로, 데이터베이스 크기를 최소화하면서도 충분한 발음 다양성을 확보할 수 있다.

데이터베이스 구축 단계에서는 원어민 성우를 이용해 40 kHz, 16‑bit 무압축 PCM 형식으로 약 3 천개의 음소 샘플을 수집하였다. 각 샘플은 정확한 시작·끝 프레임을 라벨링하고, 포화 현상과 잡음 제거를 위해 고정된 필터링 과정을 거쳤다. 라벨링 정확도는 최종 합성 품질에 직접적인 영향을 미치므로, 저자는 청취 테스트와 자동 스펙트럼 분석을 병행해 라벨링 오류를 0.5 % 이하로 낮추었다.

텍스트 전처리 단계에서는 구르무키 문자 문자열을 토큰화하고, 복합 문자(예: 자음+모음 결합)를 분리해 음소 시퀀스로 변환하는 grapheme‑to‑phoneme(G2P) 규칙을 수작업으로 정의하였다. 이 규칙은 언어학적 특성을 반영해 150여 개의 규칙으로 구성되었으며, 예외 처리와 외래어 표기도 포함한다. 변환된 음소 시퀀스는 데이터베이스에서 가장 유사한 샘플을 검색하는 단위 선택 알고리즘에 입력된다. 저자는 최소 거리 매칭과 동적 프로그래밍 기반의 Viterbi 알고리즘을 결합해 전이 비용을 최소화함으로써 자연스러운 연결을 구현하였다.

연결 과정에서는 겹침(overlap‑add) 기법과 선형 보간을 이용해 경계 부위의 인공적인 클릭 소리를 제거하고, 기본적인 억양과 강세를 적용하기 위해 간단한 prosody 모델을 도입하였다. 안드로이드 환경의 메모리 제한을 고려해 음소 데이터는 압축된 Ogg Vorbis 형식으로 저장하고, 런타임 시 필요 부분만 스트리밍하도록 설계하였다. 결과적으로 전체 애플리케이션 크기는 약 5 MB 수준이며, 텍스트 입력 → 음성 출력까지 평균 450 ms의 지연 시간을 보였다.

성능 평가는 주관적 청취 테스트(MOS)와 객관적 파형 유사도 측정을 병행했으며, 평균 MOS 점수는 4.1/5로 상용 TTS 엔진에 근접한 수준을 기록했다. 그러나 음소 기반 연결형 합성은 억양 변동이 큰 문장이나 감정 표현에서 한계가 있으며, 데이터베이스 확장 시 저장 용량과 검색 효율성 문제가 발생한다는 점을 저자는 인정한다. 향후 연구 방향으로는 딥러닝 기반 신경망 TTS(예: Tacotron 2, WaveGlow) 도입을 통해 음소 단위의 제약을 극복하고, 실시간 합성 성능을 유지하면서도 보다 풍부한 prosody를 구현하는 방안을 제시한다.

안드로이드 기반 펀자브어 TTS 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기