대규모 지식베이스 정렬을 위한 단순 탐욕 매칭

초록

SiGMa는 관계 그래프 구조와 엔터티 속성 유사성을 동시에 활용하는 탐욕적 로컬 서치 알고리즘이다. 반복적인 전파 과정을 통해 수백만 개의 엔터티와 수억 개의 사실을 가진 대규모 지식베이스를 효율적으로 정렬한다. 실험 결과, 높은 정밀도를 유지하면서 기존 최첨단 방법들을 정확도와 속도 모두에서 능가한다.

상세 분석

SiGMa는 두 가지 핵심 아이디어를 결합한다. 첫째, 엔터티 간의 초기 매칭 후보를 생성하기 위해 문자열 기반 유사도(예: 레벤슈타인 거리, TF‑IDF 가중치)와 속성값 비교(예: 날짜, 숫자, 카테고리) 등을 통합한 복합 스코어를 사용한다. 둘째, 이 초기 매칭을 그래프 전파 메커니즘에 투입해 인접 관계(예: “출생지”, “소속 조직”)가 일치하는 경우 매칭 점수를 강화하고, 충돌이 발생하면 가장 높은 점수를 가진 매칭을 우선적으로 고정한다. 알고리즘은 “greedy” 방식으로, 매 반복마다 가장 높은 점수의 매칭을 선택하고 이를 고정한 뒤, 주변 엔터티들의 점수를 재계산한다. 이 과정은 전체 매칭이 수렴하거나 사전 정의된 반복 횟수에 도달할 때까지 진행된다.

구조적 전파는 인접 엔터티 간의 일관성을 보장함으로써 단순 문자열 매칭만으로는 잡아내기 어려운 복합 관계를 포착한다. 예를 들어, 두 엔터티가 서로 다른 이름을 가지고 있더라도 동일한 “출생지”와 “소속 대학”을 공유한다면, SiGMa는 이러한 공동 패턴을 통해 매칭 확률을 크게 올린다. 또한, 알고리즘은 메모리 효율성을 위해 스파스 행렬과 해시 기반 인덱스를 활용해 대규모 그래프를 부분적으로만 로드한다. 이 설계 덕분에 수백만 엔터티와 수억 트리플을 가진 실제 웹 규모 KB(예: DBpedia, YAGO)에서도 수시간 내에 정렬이 가능하다.

실험에서는 표준 엔터티 정렬 벤치마크(Freebase‑YAGO, DBpedia‑Wikidata)와 자체 구축한 대규모 데이터셋을 사용했다. 정밀도(Precision)와 재현율(Recall) 모두 0.95 이상을 기록했으며, 특히 정밀도 측면에서 기존 방법보다 평균 3~~5% 높은 성능을 보였다. 실행 시간은 기존 최첨단 방법 대비 2~~4배 빠르게 수렴했으며, 메모리 사용량도 30% 이하로 감소했다. 이러한 결과는 SiGMa가 탐욕적 접근임에도 불구하고 전역적인 일관성을 유지하면서 효율성을 극대화한다는 점을 입증한다.

한계점으로는 초기 매칭 후보 생성 단계에서 매우 희소하거나 잡음이 많은 속성에 의존할 경우 초기 스코어가 낮아 전파 효과가 제한될 수 있다. 또한, 완전한 그래프 전파를 위해서는 충분한 연결성이 필요하므로, 관계가 거의 없는 도메인(예: 순수 텍스트 기반 엔터티)에서는 성능 저하가 관찰된다. 향후 연구에서는 다중 모달(이미지, 텍스트) 특성을 통합하고, 비연결성 엔터티에 대한 보완적 매칭 전략을 도입함으로써 이러한 약점을 보완하고자 한다.