힌디 입력을 위한 음성 매핑 방식

초록

본 논문은 힌디 텍스트 입력을 위해 사용자가 로마자 기반의 음성(phonetic) 문자열을 입력하면, 이를 중간 코드 문자열로 변환하고 힌디 발음 사전과 매칭시켜 힌디 문자로 자동 변환하는 시스템을 제안한다. 기존 인스크립트 방식이나 단순 로마자 전사 방식에 비해 입력 속도와 정확도에서 유의미한 향상을 보였으며, 실험 결과는 제안된 방법이 사용자 친화적이고 실용적임을 입증한다.

상세 분석

이 연구는 힌디와 같은 인도계 언어의 컴퓨터 입력 문제를 해결하기 위해 ‘음성 매핑(phonetic mapping)’이라는 접근법을 채택한다. 핵심 아이디어는 사용자가 라틴 알파벳으로 힌디 발음을 근사적으로 입력하면, 시스템이 이를 미리 정의된 ‘중간 코드 문자열’으로 변환하고, 이 코드와 힌디 발음 사전(Pronunciation Dictionary)을 매칭시켜 최종 힌디 문자 시퀀스를 생성한다는 것이다. 기존 인스크립트(Devanagari) 키보드 레이아웃은 사용자가 힌디 문자 위치를 외워야 하는 부담이 크고, 로마자 전사 방식은 다중 문자 매핑이 복잡해 오류가 빈번했다. 본 논문은 이러한 문제점을 해결하기 위해 두 단계 매핑을 도입한다. 첫 번째 단계는 ‘음성 → 중간 코드’ 변환으로, 예를 들어 “namaste”를 “na ma s te”와 같이 음절 단위로 분리하고 각 음절을 고유 코드(예: N1, M2, S3, T4)로 치환한다. 두 번째 단계는 ‘중간 코드 → 힌디 문자’ 매칭으로, 사전에 저장된 발음-문자 대응표를 이용해 가장 적합한 힌디 글자를 선택한다. 이때, 동형어(동일 발음이지만 다른 의미)와 복합어 처리, 그리고 사용자가 입력한 문자열이 부분 일치할 경우 후보군을 제시하는 ‘자동 완성’ 기능도 포함한다. 알고리즘적 측면에서는 Trie 기반의 사전 탐색과 Levenshtein 거리 기반의 오류 정정 메커니즘을 결합해 실시간 입력 오류를 최소화한다. 실험에서는 30명의 힌디 사용자를 대상으로 기존 인스크립트 입력기와 비교했으며, 평균 입력 속도는 25% 향상되고 오류율은 12% 감소하였다. 특히, 비전문가 사용자들이 라틴 알파벳을 이용해 힌디를 입력하는 데 소요되는 학습 시간이 크게 단축된 점이 주목할 만하다. 그러나 시스템은 발음 사전의 품질에 크게 의존하며, 방언이나 신조어에 대한 대응이 제한적이라는 한계도 있다. 향후 연구에서는 기계 학습 기반의 동적 사전 업데이트와 다중 방언 지원을 통해 이러한 제약을 극복하고자 한다.