산스크리트 시 구절을 위한 튜닝 텍스트투스피치 알고리즘

본 논문은 산스크리트 시의 텍스트를 입력받아, 시적 운율과 음악적 조화를 유지한 음성으로 변환하는 전용 텍스트‑투‑스피치(TTS) 시스템을 제안한다. 연구 배경으로는 기존 서구 언어 중심의 TTS 기술이 산스크리트어의 복합적인 형태소 결합(샌디)과 풍부한 어미 변형으로 인해 적용이 어려웠다는 점을 들며, 시가 산스크리트 문학에서 차지하는 비중과 시각·읽기 장애인을 위한 접근성 필요성을 강조한다. 시스템은 크게 네 단계로 구성된다. 첫 번째 단계는 입력 텍스트의 전처리이다. 여기서는 유니코드(UTF‑8) 기반 산스크리트 문자열을 라틴 알파벳 형태로 변환하고, 샌디 규칙을 적용한다. 저자들은 이전 연구에서 개발한 샌디 구축 엔진을 활용해, ‘hn → nh’, ‘anusvāra’, ‘visarga’ 변환 등 발음에 직접 영향을 주는 규칙을 자동으로 적용한다. 이는 원문에 존재하는 복합어를 올바른 발음 형태로 변환함으로써, 사전 기반 단어 매핑이 불가능한 경우를 해결한다. 두 번째 단계는 음절 단위(‘unit’) 추출이다. 산스크리트어는 34개의 자음·반자음·시빌런·아스피레이트와 13개의 모음으로 구성되며, 저자들은 이를 기반으로 최대 세 개의 구성 요소(전음, 모음, 후음)를 갖는 단위를 정의한다. 논문에서는 34×13=442개의 1자음‑1모음 조합은 현실적이지만, 2자음‑1모음‑1자음 형태는 5·10⁵ 개에 달한다는 combinatorial explosion 문제를 제시한다. 이를 해결하기 위해 방대한 산스크리트 사전을 분석하고, 실제 발음 가능한 단위만을 추출해 약 2,000개의 음성 클립으로 데이터베이스를 축소한다. 단위 추출 알고리즘은 모음 발견, 뒤따르는 자음·비자음 관계, ‘r’ 뒤의 특수 패턴, ‘jñ’, ‘kṣ’, ‘pr’, ‘br’, ‘kr’, ‘h’와 같은 예외 규칙 등을 상세히 다룬다. 세 번째 단계는 운율(메트릭) 분석 및 음높이·템포 매핑이다. 산스크리트 시는 700여 종류의 운율 체계에 따라 각 구절을 네 개의 ‘pāda’(절)로 구분하고, 각 절마다 강세와 휴지점(caesura)이 다르게 배치된다. 저자들은 기존에 개발한 운율 분류 알고리즘을 재활용해 입력 구절의 운율을 자동 식별하고, 해당 운율에 맞는 템포와 음높이 변화를 적용한다. 특히, ‘라가(Laghu)’와 ‘구루(Guru)’라는 모음 길이 구분을 반영해, 라가 모음은 1시간 단위, 구루 모음은 2시간 단위로 녹음된 음성 클립을 선택한다. 이때 이중 자음 뒤에 오는 라가 모음도 구루로 처리하는 선택적 규칙을 도입해 실제 발음에서 발생하는 길이 변화를 재현한다. 네 번째 단계는 음성 단위 연결 및 최종 출력이다. 모든 음성 클립은 동일한 기본 피치로 녹음되었으며, 운율·음높이 정보에 따라 동적으로 재배열된다. 이렇게 함으로써 저장 용량을 최소화하고, 실시간 합성 시에도 자연스러운 흐름을 유지한다. 시스템은 모듈화된 구조를 가지고 있어, 전처리, 단위 추출, 운율 매핑, 음성 합성 각 단계가 독립적으로 교체·확장 가능하도록 설계되었다. 실험 결과, 제안된 시스템은 기존의 문자‑대‑음성 매핑 방식에 비해 발음 정확도와 자연스러움에서 현저히 높은 점수를 얻었으며, 특히 시적 운율과 조화를 이루는 ‘튜닝’된 출력이 시각·읽기 장애인에게 유용함을 확인하였다. 또한, 데이터베이스 크기가 약 2,000개의 클립(≈200 KB)으로 제한됨에도 불구하고 다양한 운율과 복합어를 처리할 수 있음을 보였다. 결론적으로, 이 논문은 산스크리트 시의 특수성을 고려한 텍스트‑투‑스피치 알고리즘을 제시함으로써, 언어학적 복잡성, 운율적 요구, 그리고 실용적인 저장·처리 제약을 모두 만족시키는 통합 솔루션을 제공한다. 향후 연구에서는 더 풍부한 음성 표현(예: 감정, 악센트)과 다른 인도 언어에 대한 확장 가능성을 탐색할 예정이다.

산스크리트 시 구절을 위한 튜닝 텍스트투스피치 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기