밀도 보정 기반 의미 유사도 경로 모델

초록

본 논문은 대규모 어휘 계통인 WordNet에서 개념 간 연결 밀도가 고르지 않은 문제를 해결하기 위해, 기존의 단순 엣지 카운팅 방식 대신 지역 밀도 보정을 적용한 새로운 경로 계산 모델을 제안한다. 제안 모델은 최단 경로상의 상위 개념들의 직접 하위 개념 수(지역 밀도)를 깊이와 결합해 보정값을 산출하고, 이를 기존 엣지 기반 유사도 측정에 적용한다. 실험 결과, Miller‑Charles 벤치마크에서 인간 평가와의 상관계수가 0.8 이하에서 0.85 이상으로 향상되었으며, 동적 온톨로지 환경에서 정보량(IC) 기반 방법보다 계산 효율이 크게 개선됨을 보인다.

상세 분석

이 연구는 의미 유사도 측정에서 가장 널리 사용되는 “최단 경로 + 엣지 카운팅” 방식의 근본적인 한계를 지적한다. WordNet과 같은 대규모 계통적 어휘망은 도메인별로 개념 간 연결 밀도가 크게 달라, 동일한 엣지 수가 실제 의미적 거리를 동일하게 반영하지 못한다는 점이 문제다. 기존 해결책으로는 정보량(IC) 기반 방법이 제시되었지만, 이는 코퍼스 통계에 의존해 동적 온톨로지 변화에 취약하고 계산 비용이 높다. 논문은 이러한 비균일성을 “지역 밀도”라는 새로운 변수로 모델링한다. 구체적으로, 두 개념 사이의 최단 경로에 포함된 모든 상위 개념(서브서머)의 직접 하위 개념 수를 합산해 지역 밀도를 정의한다. 이 값은 해당 경로가 포함하고 있는 의미적 “폭”을 정량화한다. 이후 지역 밀도를 해당 경로의 평균 깊이(depth)로 나누어 보정 계수를 만든다. 보정 계수는 가중치 파라미터 λ(0≤λ≤1)와 곱해져 기존 엣지 수에 더해지며, λ=0이면 순수 엣지 카운팅, λ=1이면 완전 보정된 형태가 된다. 저자는 이 보정식이 정보 이론적 관점—특히 개념의 정보량이 그 하위 개념 수와 깊이에 반비례한다는 가정—과 일치함을 수식적으로 증명한다.

제안 모델은 기존 엣지 기반 유사도 함수(예: Leacock‑Chodorow, Wu‑Palmer 등)에 플러그인 형태로 적용 가능하도록 설계되었다. 실험에서는 Miller‑Charles 30쌍 단어 데이터와 WordNet 3.0을 사용해, λ를 0.5~0.8 사이에서 최적화하였다. 결과는 보정 전 평균 피어슨 상관계수 r≈0.78에서 보정 후 r≈0.86으로 크게 상승했으며, 특히 밀도가 높은 하위 영역(예: 동물·식물)에서 개선 폭이 두드러졌다. 또한, IC 기반 방법과 비교했을 때, 보정 모델은 코퍼스 기반 통계 수집이 필요 없으므로 온톨로지 구조만으로 실시간 계산이 가능하고, 대규모 동적 업데이트 상황에서도 O(|E|) 수준의 선형 복잡도를 유지한다.

이 논문의 핵심 기여는 (1) 비균일한 개념 밀도를 정량화하는 지역 밀도 개념 도입, (2) 이를 깊이와 결합한 보정식으로 엣지 카운팅에 통합, (3) 정보 이론과의 일관성을 수학적으로 증명, (4) 다양한 기존 유사도 측정에 일반화 가능한 프레임워크 제공, (5) 실험을 통한 인간 인지와의 높은 일치도와 계산 효율성 입증이다. 향후 연구에서는 λ의 자동 튜닝, 다중 관계(동의어·반의어 등) 통합, 그리고 다른 온톨로지(예: SNOMED CT, Gene Ontology) 적용 가능성을 탐색할 여지가 있다.