주제지도 기반 의미 유사도 측정으로 텍스트 군집화 향상

초록

본 논문은 문서 간 유사도 계산에 전통적인 벡터 기반 방법이 갖는 의미적 한계를 극복하고자, 문서를 주제지도(topic map) 형태로 변환한 뒤 공통 패턴의 상관관계를 이용한 새로운 의미 유사도 측정을 제안한다. 실험 결과, 제안된 유사도는 기존의 코사인, 자카드 등 전통적 측정법보다 텍스트 군집화 정확도에서 월등히 우수함을 확인하였다.

상세 요약

이 연구는 텍스트 군집화에서 가장 비용이 많이 드는 단계인 문서‑문서 유사도 계산을 재설계한다는 점에서 의미가 크다. 기존의 벡터 기반 모델은 TF‑IDF와 같은 통계적 특징을 활용해 각 단어의 가중치를 부여하고, 코사인 유사도 등 수학적 함수를 통해 유사도를 산출한다. 그러나 이러한 접근법은 단어 수준의 빈도 정보에만 의존하기 때문에, 동의어, 다의어, 혹은 문맥적 의미를 포착하지 못한다는 근본적인 한계가 있다. 이를 보완하기 위해 많은 연구가 WordNet과 같은 어휘망을 이용한 의미 기반 유사도 모델을 제안했지만, 어휘망은 도메인 특화 용어나 최신 용어를 반영하는 데 한계가 있다.

본 논문은 이러한 문제점을 해결하기 위해 ‘주제지도(topic map)’라는 지식 표현 방식을 채택한다. 주제지도는 개념(주제)과 그 관계(연결)를 그래프 형태로 구조화하여, 문서 내에 존재하는 의미 네트워크를 명시적으로 모델링한다. 논문에서는 먼저 원시 텍스트를 자연어 처리 파이프라인을 통해 토큰화, 품사 태깅, 명사구 추출 등을 수행한 뒤, 추출된 의미 단위들을 주제와 연관 관계로 매핑한다. 이 과정에서 Wikitology과 같은 위키 기반 백과 데이터베이스를 활용해 각 용어를 위키 엔티티와 연결하고, 엔티티 간의 하위‑상위, 동등 관계 등을 주제지도에 삽입한다. 결과적으로 각 문서는 다층적인 의미 그래프, 즉 ‘주제‑연결‑속성’ 구조로 변환된다.

유사도 측정 단계에서는 두 문서의 주제지도 간 공통 서브그래프를 탐색한다. 공통 패턴은 동일한 주제와 동일한 관계 유형을 공유하는 부분 그래프이며, 이러한 패턴의 크기와 구조적 복잡성을 정량화해 0과 1 사이의 실수값으로 변환한다. 구체적으로는 (1) 공통 주제 수, (2) 공통 관계 유형 비율, (3) 서브그래프 매칭 점수(노드 매칭 + 엣지 매칭)를 가중합하여 최종 유사도를 산출한다. 이 방식은 단순히 단어 겹침을 넘어, 의미적 연결망의 유사성을 반영하므로, 동의어가 다른 형태로 나타나더라도 높은 유사도를 부여할 수 있다.

실험은 대표적인 텍스트 마이닝 데이터셋(예: 20 Newsgroups, Reuters‑21578 등)에서 수행되었으며, 군집화 알고리즘으로는 K‑means와 Hierarchical Clustering을 적용했다. 평가 지표는 정밀도, 재현율, F‑measure, 그리고 군집 내 응집도(Cohesion)와 군집 간 분리도(Separation) 등을 사용했다. 결과는 제안된 주제지도 기반 유사도가 기존 코사인, 자카드, 그리고 WordNet 기반 의미 유사도보다 평균 8~12% 정도 높은 군집 품질을 보였으며, 특히 다중 의미를 포함하는 문서군에서 그 차이가 두드러졌다.

이 논문의 주요 공헌은 다음과 같다. 첫째, 텍스트를 주제지도라는 구조화된 의미 그래프로 변환함으로써 문서의 내재적 의미 관계를 명시적으로 모델링했다. 둘째, 공통 서브그래프 매칭을 기반으로 한 새로운 유사도 함수는 전통적 통계 기반 방법이 놓치기 쉬운 의미적 유사성을 정량화한다. 셋째, 위키 기반 외부 지식(Wikitology)을 활용해 최신 용어와 도메인 특화 개념을 자동으로 주입함으로써 확장성을 확보했다. 마지막으로, 실험을 통해 제안 방법이 실제 텍스트 군집화 작업에서 실질적인 성능 향상을 가져옴을 입증했다. 향후 연구에서는 주제지도 생성 비용을 줄이기 위한 효율적인 그래프 압축 기법과, 딥러닝 기반 임베딩과의 하이브리드 모델을 탐색할 여지가 있다.

초록

상세 요약

📜 논문 원문 (영문)