온톨로지 웹 검색 엔진

초록

본 논문은 온톨로지 웹 검색 엔진(Ontology Web Search Engine)의 설계와 구현 방안을 제시한다. OWL 기반 온톨로지를 웹에서 자동으로 수집·색인화하여, 이를 기반 규칙을 생성하고 지식베이스에 통합하는 SWES(Semantic Web Expert System)의 핵심 모듈로 활용한다.

상세 요약

논문은 먼저 온톨로지 기반 지식 서비스의 필요성을 강조한다. 현재 웹에는 방대한 양의 OWL 온톨로지가 흩어져 있으나, 이를 효율적으로 탐색하고 활용할 수 있는 메커니즘이 부족하다. 이에 저자들은 온톨로지 웹 검색 엔진(Ontology Web Search Engine, 이하 OWSE)을 설계하여, 크롤러, 파서, 색인기, 질의 처리 모듈로 구성된 파이프라인을 제안한다. 크롤러는 RDF/XML, Turtle, JSON‑LD 등 다양한 OWL 직렬화 형식을 지원하도록 설계되었으며, URL 필터링과 도메인 제한을 통해 불필요한 트래픽을 최소화한다. 파서는 수집된 문서에서 owl:Class, owl:ObjectProperty, owl:DatatypeProperty 등 핵심 메타데이터를 추출하고, 온톨로지 간의 상호 연관성을 분석한다. 색인 단계에서는 역색인 구조와 함께 온톨로지의 계층적 구조를 반영한 트리 기반 인덱스를 구축해, 의미 기반 검색을 가능하게 한다. 질의 처리 모듈은 SPARQL 엔드포인트와 연동되어 사용자가 키워드 혹은 클래스 이름으로 온톨로지를 검색하면, 관련 온톨로지와 그 메타데이터를 빠르게 반환한다.

SWES와의 연계 부분에서는, OWSE가 제공하는 온톨로지 집합을 입력으로 받아 규칙 생성 엔진이 자동으로 생산 규칙(예: SWRL)을 도출한다. 도출된 규칙은 SWES의 지식베이스에 동적으로 삽입되어, 시스템이 새로운 도메인 지식을 실시간으로 학습하도록 설계되었다. 논문은 또한 온톨로지 품질 평가 지표(정합성, 완전성, 최신성)를 도입해, 색인 단계에서 저품질 온톨로지를 자동으로 필터링하는 메커니즘을 제시한다.

성능 평가에서는 10,000개 이상의 공개 OWL 온톨로지를 대상으로 크롤링·색인·검색 속도를 측정했으며, 평균 크롤링 시간은 0.35초, 검색 응답 시간은 0.12초로 보고한다. 또한, 규칙 생성 실험에서 평균 85% 이상의 정확도를 달성했으며, 이는 기존 수동 규칙 작성 방식에 비해 생산성을 크게 향상시킨다.

마지막으로 논문은 확장성 문제를 논의한다. 분산 크롤링과 샤딩 기반 색인 구조를 도입하면 대규모 웹 환경에서도 높은 처리량을 유지할 수 있다. 또한, 온톨로지 버전 관리와 증분 업데이트 메커니즘을 통해 색인 최신성을 보장한다. 전반적으로 OWSE는 온톨로지 기반 지식 서비스의 핵심 인프라로서, SWES와의 시너지 효과를 통해 일반 사용자에게도 접근 가능한 범용 전문가 시스템을 구현하는 데 기여한다.

초록

상세 요약

📜 논문 원문 (영문)