대규모 학술 자료와 이용 분석을 위한 실용 온톨로지

본 논문은 학술 자료와 그 이용 행위를 대규모로 모델링하기 위한 실용적인 온톨로지를 제안한다. 저자들은 MESUR( Metrics from Scholarly Usage of Resources) 프로젝트의 일환으로, 5천만 건 이상의 논문 메타데이터와 10억 건 이상의 이용 이벤트를 포괄하는 온톨로지를 설계·구현하였다. 논문 서두에서는 현재 학술 기록이 급격히 확대되고 있으나, 기존 인용 기반 메트릭만으로는 학술 커뮤니케이션 전체를 이해하기에 한계가 있음을 지적한다. 특히, 프리프린트, 데이터셋, 소프트웨어 등 다양한 형태의 학술 산출물이 증가하고 있으며, 이들의 이용 행위(다운로드, 조회, 이메일 전송 등)도 방대하게 축적되고 있다. 이러한 배경에서 사용 데이터의 수집·보관·분석에 필요한 온톨로지와 저장 기술이 부재함을 문제점으로 제시한다. 2절에서는 의미 네트워크와 온톨로지의 기본 개념을 설명한다. 의미 네트워크는 라벨이 붙은 방향성 그래프이며, 온톨로지는 추상 클래스와 그 관계, 그리고 추론 규칙의 집합으로 정의된다. RDF(S)와 OWL을 기반으로 한 트리플 스토어가 의미 네트워크 데이터를 저장·조회하는 주요 기술이며, SPARQL이 표준 질의 언어로 사용된다. 3절에서 MESUR 온톨로지의 설계 원칙을 상세히 제시한다. 첫 번째 요구는 실제로 수집 가능한 메타데이터와 이용 데이터를 반영하는 것이며, 두 번째는 이용 행위 모델링을 포함하는 것이다. 세 번째는 수십억 트리플을 저장·처리할 수 있는 확장성을 확보하는 것이다. 이를 위해 온톨로지는 최소한의 핵심 클래스만을 정의한다. 주요 클래스는 Artifact(논문, 데이터셋, 소프트웨어 등), Agent(저자, 기관, 출판사), Action(다운로드, 조회, 인용)이며, 각각은 URI로 고유 식별된다. 전통적인 1:1 관계 대신 N‑ary 관계를 표현하기 위해 ‘PublishingContext’, ‘UsageContext’와 같은 컨텍스트 클래스를 도입하였다. 예를 들어, 논문‑저널 관계는 직접 연결되지 않고 PublishingContext를 통해 연결되며, 이 컨텍스트는 논문, 저널, 발행일, 저자 리스트 등을 포함한다. 이러한 설계는 트리플 수를 최소화하고, 새로운 속성이나 관계를 추가할 때 기존 구조를 크게 변경하지 않아도 되도록 한다. 4절에서는 기존 학술 온톨로지와의 비교 분석을 수행한다. ScholOnto, ABC, OntologyX 등은 각각 서지 정보나 논문 내용 분석에 초점을 맞추었으나, 이용 데이터 통합이나 대규모 스케일링을 고려하지 않았다. 특히, 이용 이벤트를 표현하는 클래스가 없거나, 트리플 스토어에 모든 문자열 데이터를 저장하려다 보니 확장성이 떨어지는 문제가 있었다. MESUR 온톨로지는 이러한 한계를 극복하기 위해 핵심 관계만을 트리플 스토어에 두고, 저자명·초록·키워드와 같은 대용량 문자열은 관계형 데이터베이스에 저장한다. 이 하이브리드 저장 구조는 현재 상용 트리플 스토어가 감당할 수 있는 노드·엣지 수를 초과하지 않으면서도, 복합 질의와 추론을 가능하게 한다. 5절에서는 하이브리드 저장소 구현 세부 사항을 다룬다. 트리플 스토어는 Apache Jena 혹은 Sesame와 같은 오픈소스 솔루션을 사용하고, 관계형 데이터베이스는 MySQL/PostgreSQL을 채택하였다. 데이터 삽입 파이프라인은 원시 로그(예: 서버 로그, COUNTER 보고서)를 전처리하여 RDF 트리플과 RDBMS 레코드로 변환한다. 이용 이벤트는 IP 주소, 타임스탬프, 이벤트 타입(다운로드, 조회 등) 등 최소한의 메타데이터만을 포함한다. 이러한 설계는 프라이버시 보호와 데이터 최소화 원칙을 동시에 만족한다. 마지막으로, 온톨로지를 활용한 메트릭 예시를 제시한다. ‘Usage Impact Factor’는 특정 기간 동안 저널에 대한 다운로드·조회 횟수를 해당 저널에 실린 논문 수로 나눈 값이며, 기존 ISI Impact Factor와는 다른 이용 기반 가치를 제공한다. 또한, 저자별 ‘Usage h‑index’는 인용이 아닌 이용 횟수를 기반으로 계산된다. 이러한 메트릭은 SPARQL 집계와 RDBMS 조인을 결합한 하이브리드 쿼리로 실시간 산출이 가능하다. 결론적으로, 본 논문은 대규모 학술 데이터와 이용 로그를 통합적으로 모델링할 수 있는 경량 OWL 온톨로지를 제시하고, 트리플 스토어와 관계형 데이터베이스를 결합한 하이브리드 저장소를 통해 확장성을 확보하였다. 이는 학술 커뮤니케이션의 전 과정(생산, 배포, 이용)을 정량적으로 분석하고, 새로운 이용 기반 메트릭을 개발하는 데 필수적인 인프라를 제공한다. 향후 연구에서는 더 다양한 학술 산출물(데이터셋, 코드)과 소셜 미디어 공유 데이터를 온톨로지에 통합하고, 머신러닝 기반의 이용 패턴 예측 모델과 연계하는 방향을 제시한다.

대규모 학술 자료와 이용 분석을 위한 실용 온톨로지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기