트리형 온톨로지를 활용한 객체 쌍의 Top‑k 유사도 탐색

초록

본 논문은 트리 구조의 온톨로지 용어로 주석된 객체들 사이에서, 런타임에만 제공되는 설명을 기반으로 Top‑k 유사 객체 쌍을 효율적으로 찾는 방법을 제시한다. 최소 쌍거리, 평균 쌍거리, 그리고 가장 실용적인 지구 이동자 거리(EMD) 세 가지 거리 측정법을 정의하고, 각각에 대해 하한값을 이용한 프루닝 기법과 특화된 탐색 알고리즘을 설계한다. 특히 EMD에 대해서는 하위 트리별 하한을 점진적으로 결합해 검색 비용을 크게 절감한다. 실험 결과, 제안 알고리즘이 실제 및 합성 데이터셋에서 높은 정확도와 확장성을 보임을 확인하였다.

상세 요약

이 연구는 온톨로지 기반 메타데이터가 점점 더 많이 활용되는 현 상황에서, 객체 간 유사도를 정량화하고 효율적으로 Top‑k 쌍을 추출하는 문제를 체계적으로 다룬다. 먼저 객체를 설명하는 용어 집합을 트리형 온톨로지의 노드로 모델링하고, 세 가지 거리 정의를 제안한다. 최소 쌍거리(min‑pairwise distance)는 두 객체의 용어 집합 중 가장 가까운 두 용어 사이의 거리로, 계산이 간단하지만 전체 구조 정보를 충분히 반영하지 못한다. 평균 쌍거리(average‑pairwise distance)는 모든 용어 쌍의 평균을 취해 전반적인 유사성을 포착하지만, O(|S₁|·|S₂|)의 비용이 발생한다. 가장 강력한 지구 이동자 거리(EMD)는 두 용어 집합을 질량으로 보고 최적 매칭을 찾아 최소 이동 비용을 구한다. EMD는 실제 의미적 차이를 가장 잘 반영하지만, 전통적인 선형 프로그래밍 풀이가 비현실적으로 무겁다.

논문은 이러한 비용을 낮추기 위해 하한값(lower bound) 전략을 설계한다. EMD의 경우, 트리 구조를 이용해 각 서브트리에서 가능한 최소 이동 비용을 사전 계산하고, 이를 상위 노드에서 누적해 전체 하한을 만든다. 이 하한은 점진적으로 강화되며, 현재 후보 Top‑k 리스트와 비교해 불필요한 쌍을 조기에 제외한다. 최소 쌍거리 알고리즘은 전체 용어 수 D와 트리 노드 수 T에 대해 O(D + T·k·log k) 시간 복잡도를 달성한다. 평균 쌍거리에 대해서는 하한을 정렬된 형태로 생성하고, 베스트‑퍼스트(best‑first) 탐색을 적용해 후보를 순차적으로 확장한다. 이 과정에서 하한이 충분히 강력하면 전체 평균 거리를 실제로 계산할 필요가 없어 탐색 비용이 크게 감소한다.

실험에서는 실제 생물학적 온톨로지(예: Gene Ontology)와 합성 트리를 이용해 알고리즘의 효율성을 검증한다. 결과는 특히 EMD 기반 방법이 하한 프루닝을 통해 전체 탐색 시간의 90 % 이상을 절감했으며, 메모리 사용량도 선형 수준으로 유지됨을 보여준다. 또한, 최소·평균 거리 방법도 각각 제시된 복잡도에 부합하는 실행 시간을 기록한다. 이러한 성과는 온톨로지 기반 데이터베이스, 지식 그래프, 그리고 의미 검색 시스템에서 실시간 유사도 매칭이 요구되는 다양한 응용에 직접 적용 가능함을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)