규칙 기반 가엘어 형태소 모델링: 위키낱말사전 활용
초록
본 논문은 스코틀랜드 가엘어(Gaidhlig)의 형태소 분석을 위해 위키낱말사전 데이터를 구조화하고, SQL과 파이썬 기반 규칙 엔진을 이용해 어휘 변형을 자동 생성하는 시스템을 제안한다. 데이터가 부족한 저자원 언어에 적합한 규칙 기반 접근법의 해석 가능성과 교육적 활용 가능성을 강조한다.
상세 분석
이 연구는 저자원 언어인 가엘어의 형태학적 특성을 규칙 기반으로 모델링함으로써, 대규모 학습 데이터가 필요한 신경망 모델의 한계를 보완한다는 점에서 의미가 크다. 우선 위키낱말사전에서 가엘어 항목을 추출하고, ‘주요 형태(principal parts)’를 식별해 구조화된 어휘 형식(SVF)으로 변환한다. SVF는 각 어휘의 기본형, 복수형, 성·격·격조 등 핵심 정보를 표준화된 텍스트 라인으로 저장해, 관계형 데이터베이스에 적재하고 SQL 질의를 통해 형태 변이 패턴을 통계적으로 탐색할 수 있게 한다.
형태 변이 규칙은 가엘어 고유의 현상—예를 들어, 광폭/날씬 모음 구분에 따른 모음 조화, 어두두음(선행음) 변형, 연음(lenition), 전두음(prothesis), 복수·격·성 변환 등—을 정형화한 선언적 규칙 집합으로 구현된다. 파이썬 유틸리티는 이 규칙을 해석하여 입력 어휘에 대해 가능한 모든 굴절형을 생성한다. 특히 명사의 경우 ‘명사 단수 주격(NS)’, ‘복수 주격(NP)’, ‘단수 소유격(GS)’ 등 세 가지 주요 형태만 알면 나머지 5~6개의 굴절형을 자동으로 도출할 수 있다. 동사도 ‘단수 명령형’과 ‘동명사(VN)’라는 두 주요 형태만으로 24개의 굴절형을 재구성한다.
SQL 기반 분석은 실제 텍스트 코퍼스와 위키낱말사전 어휘 간의 형태 빈도 차이를 정량화하는 데 활용된다. 예를 들어, 특정 격(예: 여격)의 사용 빈도가 시간에 따라 감소하거나, 특정 어두두음 변이가 지역별로 다르게 나타나는지를 데이터베이스 질의만으로 파악할 수 있다. 이는 교육 자료 설계 시 ‘핵심 빈도 형태’를 강조하거나, 예외 규칙을 별도 학습 모듈로 제공하는 근거가 된다.
기술적 장점으로는 (1) 데이터 요구량이 극히 적어도 모델 구축이 가능하고, (2) 규칙 자체가 인간이 이해 가능한 형태이므로 디버깅 및 교정이 용이하며, (3) 경량 실행 환경에서도 실시간 형태 생성이 가능해 모바일 학습 앱 등에 바로 적용할 수 있다. 반면 한계점은 불규칙 동사의 예외 처리와, 현재는 명사·동사·형용사만을 대상으로 하여 기능어(전치사·접속사 등)의 형태 변이를 다루지 못한다는 점이다. 또한 규칙 집합이 언어 변천에 따라 업데이트되지 않으면 오래된 형태가 과도하게 반영될 위험이 있다.
전체적으로 이 논문은 저자원 언어 NLP에서 규칙 기반 접근이 여전히 유효함을 실증하고, 위키낱말사전이라는 공개 자원을 구조화·활용함으로써 학술·교육·산업 현장에서 바로 활용 가능한 파이프라인을 제시한다. 향후 작업으로는 불규칙 형태 자동 탐지, 형태학‑통사론 통합 파서 구축, 그리고 다른 켈트어군(아일랜드어·맨크스어)으로의 확장이 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기