다언어 웹 접근을 위한 인터링구얼 어휘 온톨로지

다언어 웹 접근을 위한 인터링구얼 어휘 온톨로지

초록

본 논문은 자연어와 시맨틱 웹을 연결해 다국어 데이터 접근성을 높이고자, RDF·OWL·SKOS 등 시맨틱 웹 형식언어를 활용한 인터링구얼 어휘 온톨로지(ILexicOn)를 제안한다. ILexicOn은 세 층 구조(ILexiMOn 메타‑온톨로지, ILexicOn 본체, 데이터 레이어)로 구성되며, 각 인터링구얼 어휘 단위(ILUc)가 자신의 의미 분해를 자체에 투사(projection)하도록 설계되었다. 논문은 기존 어휘 온톨로지와의 차별점, 인간 친화적 표기법, 그리고 의미 분해 투사의 구현 예시를 제시한다.

상세 분석

ILexicOn은 기존 WordNet, OntoLex‑Lemon 등 단일 언어 중심 어휘 온톨로지의 한계를 극복하기 위해 ‘인터링구얼’이라는 개념을 도입한다. 핵심은 ILUc(Interlingual Lexical Unit class)라는 추상적 어휘 단위가 자체적인 의미 분해 구조를 메타데이터 형태로 보유하고, 이를 RDF 트리플로 표현함으로써 다른 언어의 어휘와 직접 매핑할 수 있다는 점이다. 이를 가능하게 하는 것이 ILexiMOn 메타‑온톨로지이다. ILexiMOn은 ILUc, 의미 역할, 관계 유형 등을 정의하는 상위 스키마이며, OWL DL을 기반으로 클래스·속성·제약을 명시한다. 이러한 메타‑스키마는 ECD(Exact Conceptual Description) 원칙을 따르며, 의미적 일관성과 논리적 검증을 보장한다.

두 번째 레이어인 ILexicOn은 실제 어휘 단위들을 ILexiMON에 정의된 클래스를 활용해 구체화한다. 각 ILUc는 rdfs:subClassOf 로 상위 개념에 연결되고, skos:definition·ex:semanticDecomposition 같은 속성을 통해 의미적 설명과 분해 트리를 기술한다. 의미 분해는 재귀적 구조를 가지며, 분해된 하위 ILUc는 동일한 메타‑스키마에 의해 정의되므로 온톨로지 전체가 자기‑참조적(self‑referential) 구조를 갖는다.

데이터 레이어는 이러한 정의를 실제 어휘 데이터와 연결한다. RDF Graph 형태로 저장된 ILUc 인스턴스는 언어별 표면형(literal)과 매핑되며, SPARQL Endpoint를 통해 다국어 질의가 가능하도록 설계되었다. 논문은 인간이 읽기 쉬운 ‘ILexicOn 표기법’을 제안해, 복잡한 RDF 트리플을 간결한 텍스트 형태(예: ILU:Person →