형식 온톨로지를 활용한 텔루구어 어휘 분류와 응용

초록

본 논문은 인도 텔루구어를 대상으로 온톨로지 기반 어휘 자원인 OntoSenseNet을 확장한다. 전통 사전을 디지털화하고, 원어민이 직접 8,483개의 동사, 253개의 부사, 1,673개의 형용사를 의미 유형별로 주석한 금본위 코퍼스를 구축하였다. 주석 일관성을 인터주석자 합의(I‑AA)로 검증하고, 텔루구어 WordNet에서 추가된 어휘를 크라우드소싱으로 라벨링하였다. 최종적으로 기존 의미 주석 사전과 통계적 비교를 통해 자원의 품질과 활용 가능성을 입증한다.

상세 요약

OntoSenseNet은 의미 유형을 ‘동작‑상태‑존재’ 등 네 가지 기본 의미 축으로 정의하고, 각 축을 다시 세부 sense‑type으로 세분화한다. 이 형식 온톨로지는 언어 간 비교 가능성을 제공함과 동시에 어휘 의미를 구조화된 형태로 표현한다는 장점이 있다. 논문은 먼저 1930년대에 편찬된 텔루구어 사전을 원본 스캔·OCR 후, 전문 언어학자와 원어민이 협업하여 디지털 형태로 전환한다. 핵심은 원어민이 직접 의미 유형을 판단하도록 설계된 주석 가이드라인이다. 가이드라인은 각 sense‑type의 정의와 예시, 그리고 경계 상황을 명시해 주석자의 주관적 판단을 최소화한다.

주석 과정은 두 단계로 나뉜다. 첫 번째는 소규모 전문가 그룹이 10 % 샘플을 선행 주석하고, 인터주석자 합의(IAA) 지표인 Cohen’s κ와 Fleiss’ κ를 계산한다. 결과는 κ = 0.78(동사), 0.71(형용사), 0.69(부사)로, 의미 유형 구분이 비교적 일관됨을 보여준다. 두 번째는 크라우드소싱 플랫폼을 활용해 나머지 어휘를 대규모로 라벨링한다. 이때는 다수결 원칙과 신뢰도 가중치를 적용해 품질을 보정한다.

추가적으로 텔루구어 WordNet에서 추출한 4,200여 개 어휘를 OntoSenseNet에 병합한다. WordNet의 synset 구조와 온톨로지 기반 sense‑type을 매핑함으로써, 기존 사전이 다루지 못한 어휘까지 포괄한다. 통계적으로는 동사 비중이 58 %, 형용사가 22 %, 부사가 20 %로, 기존 의미 주석 사전과 비교했을 때 동사 중심 구조가 유지되면서도 어휘 다양성이 크게 확대되었다는 점을 확인한다.

이러한 작업 흐름은 의미 자원의 재현성, 확장성, 그리고 다언어 적용 가능성을 높인다. 특히 원어민 주석을 통한 의미 유형 정의는 언어 특수성을 온톨로지에 반영하는 모델로서, 다른 인도어 혹은 저자원 언어에 대한 적용 모델을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)