산스크리트 연음 규칙을 위한 새로운 수치 기반 컴퓨팅 스키마
초록
본 논문은 파니니의 4천여 개 사투라를 직접 수치화하여 산스크리트 연음(산디) 규칙을 5가지 연산자 카테고리로 정리하고, 약 2,500개의 개별 규칙을 수학적 연산식으로 구현한 경량 알고리즘을 제시한다.
상세 분석
이 연구는 산스크리트 어휘 처리의 첫 관문인 연음(sandhi) 문제를 해결하기 위해 파니니의 원전 사투라를 그대로 코드화한다는 점에서 학문적 충실성을 확보한다. 저자는 마헤쉐바라 사투라에 제시된 알파벳 순서를 기반으로 각 음소에 151의 정수값을 부여하고, 이를 토대로 ‘C1C5’라는 다섯 가지 변환 카테고리를 정의한다. C1은 두 음소를 하나의 복합음으로 치환, C2·C3은 각각 첫 번째·두 번째 음소만을 치환, C4는 삽입, C5는 삭제를 의미한다. 이러한 카테고리화는 연산자를 ⊕₁…⊕₅ 로 추상화하고, 각 사투라별·규칙별로 ⊕ᵢ,ⱼ,ₖ 형태의 3중 서브스크립트를 두어 구체적인 변환식을 기술한다. 결과적으로 49개의 사투라가 2,413개의 구체적 연산식으로 전환된다.
기술적 강점은 첫째, 파니니 규칙을 그대로 수치화함으로써 인간 전문가가 수행하던 복잡한 조건 검사를 기계적으로 재현한다는 점이다. 둘째, 정수값 기반이므로 문자열 비교보다 연산 비용이 낮아 ‘컴퓨팅 레인’이라고 주장한다. 셋째, 모든 주요 연음 유형(예: गुण, वृद्धि, परा॒रूप, इत्यादि)을 포괄하고 있어 실제 텍스트 전처리 파이프라인에 바로 적용 가능하다.
하지만 몇 가지 한계도 눈에 띈다. 첫째, 문자값 매핑이 마헤쉐바라 사투라 순서에 고정돼 있어 현대 산스크리트 표기(예: IAST, Devanagari, Unicode)와의 호환성이 부족하다. 논문에서는 라틴 문자 집합을 사용했지만, 실제 디지털 텍스트는 UTF‑8 기반이므로 변환 단계가 추가로 필요하다. 둘째, 규칙 수가 2,500여 개에 달함에도 불구하고 알고리즘의 시간·공간 복잡도에 대한 정량적 평가가 전혀 제시되지 않았다. 실제 대규모 코퍼스(예: GRETIL)에서의 성능 측정이 없으므로 ‘경량’이라는 주장에 신뢰성이 떨어진다. 셋째, 연산자 정의가 수학적으로는 명료하지만 구현 시 가독성이 낮아 유지보수에 어려움을 초래한다. 특히 ⊕ᵢ,ⱼ,ₖ 형태의 다중 서브스크립트는 프로그래밍 언어에 직접 매핑하기가 까다롭다. 넷째, 예외 처리(예: अपवर्जन, विशेषण)와 비표준 변형에 대한 논의가 부족해 실제 텍스트에서 발생하는 불규칙성을 완전히 포착하지 못한다. 마지막으로, 기존의 FSM, HMM, 딥러닝 기반 연음 분할·생성 모델과의 비교 실험이 없으며, 제안 모델이 실제 어플리케이션(예: 형태소 분석기, 자동 번역)에서 어느 정도의 정확도를 보이는지 알 수 없다.
종합하면, 이 논문은 파니니 사투라를 수치화하고 연산자 기반으로 체계화한 독창적인 시도를 보여준다. 학술적 가치와 구현 아이디어는 높지만, 실용적 적용을 위해서는 성능 평가, Unicode 호환성 강화, 예외 규칙 통합 등의 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기