소라니 쿠르드어 맞춤법 검사와 형태소 분석을 위한 Hunspell 구현
초록
본 논문은 오픈소스 Hunspell을 활용해 소라니 쿠르드어(중앙 쿠르드어)의 맞춤법 검사기, 형태소 분석기, 스테머를 구축한 사례를 제시한다. 23,223개의 형태소‑태그가 부착된 어휘와 4,293개의 규칙 기반 어미·접두사 패턴을 정의하고, 이를 .dic·.aff 파일로 구현하였다. 실험을 통해 철자 오류 탐지·수정, 어간 추출, 형태소 분할 정확도를 검증했으며, 기존 Soundex·통계 기반 시스템보다 우수한 성능을 보였다. 모든 자료는 GitHub에 공개되어 향후 연구와 편집기 통합에 활용될 수 있다.
상세 분석
소라니 쿠르드어는 풍부한 굴절과 파생 형태를 갖는 교착어이며, 특히 인격표시가 동사 시제에 따라 전위·후위로 변하는 분할 에르고티브 특성을 지닌다. 이러한 언어학적 특성은 전통적인 n‑gram 기반 스펠링 교정이나 단순 어간 추출 알고리즘으로는 충분히 다루기 어렵다. 논문은 이러한 복합성을 규칙 기반 접근법으로 해결하고자 한다. 먼저, 위키페레헝, FreeDict, Wikidata 등 공개된 사전 자원을 수집하고, 아라비아 문자와 라틴 문자 간의 양방향 전사 시스템을 적용해 일관된 스크립트(아라비아 문자)로 정규화하였다. 각 어휘 항목은 품사, 파생·굴절 구분, 인격·시제·수·성 등 세부 형태소 정보를 포함하도록 수작업으로 태깅했으며, 총 23,223개의 형태소‑태그가 부착된 어휘집을 구축했다.
형태소 규칙은 Hunspell의 PFX/SFX 구문을 이용해 4,293개의 접두·접미 규칙으로 구현되었다. 특히, 어미 결합 시 발생하는 모음조화·자음동화와 같은 형태음운 변이를 자동화하기 위해 대괄호(
댓글 및 학술 토론
Loading comments...
의견 남기기