다중어 용어 확장과 의미 동의어를 활용한 질의 정제

초록

본 논문은 TermWatch 시스템을 소개한다. TermWatch는 영문 초록에서 도메인 용어를 자동 추출하고, 의미적으로 긴밀한 관계(동의어·상위·하위 등)를 기반으로 용어를 클러스터링하여 네트워크 형태의 용어 사전을 구축한다. 2005‑2006년 PASCAL 데이터베이스(367 645개 초록)에서 실험을 수행했으며, 자동 구축된 용어 네트워크를 기존 TermScience 영문 자원(88 211개 용어)과 비교하였다. 결과는 TermWatch가 의미 중심의 군집과 네트워크 구조를 통해 질의 정제에 유용한 풍부한 용어 관계를 제공함을 보여준다.

상세 분석

TermWatch는 먼저 형태소 분석기와 명사구 추출 규칙을 이용해 초록 텍스트에서 다중어(term)와 복합어를 식별한다. 이때 일반적인 토큰 단위가 아닌 의미 단위인 ‘도메인 용어’를 선택함으로써 잡음(term noise)을 크게 감소시킨다. 추출된 용어는 어휘적 유사성(표면 형태)과 의미적 유사성(동의어 사전, WordNet, 그리고 통계적 동시출현) 두 축을 결합한 점수 체계로 정량화된다. 이후, 이 점수를 임계값으로 삼아 ‘동의어·상위·하위·연관어’ 등 네 가지 핵심 관계를 정의하고, 관계 강도가 높은 용어 쌍을 엣지(edge)로 연결한다.

클러스터링 단계에서는 그래프 기반의 커뮤니티 탐지 알고리즘(예: Louvain 방법)을 적용해 고밀도 서브그래프를 추출한다. 각 커뮤니티는 하나의 의미적 개념 영역을 나타내며, 내부 용어들은 의미적으로 매우 밀접하게 연결된다. 이러한 군집 구조는 전통적인 벡터 공간 모델이 제공하지 못하는 ‘용어 간 의미 흐름’을 시각화한다는 점에서 질의 정제에 큰 장점을 가진다.

실험에서는 PASCAL 2005‑2006 데이터베이스의 367 645개 영문 초록을 대상으로 TermWatch를 실행하였다. 자동 생성된 용어 네트워크는 총 112 834개의 노드와 254 321개의 엣지를 포함했으며, 이는 기존 TermScience 영문 자원(88 211개 용어)보다 약 28% 더 많은 용어와 2배 이상의 관계를 제공한다. 정량적 평가는 정밀도·재현율·F1 점수를 이용했으며, 특히 동의어 기반 확장은 질의 확장 시 재현율을 12%p 상승시켰다.

또한, 사례 연구를 통해 사용자가 ‘machine learning’이라는 질의를 입력했을 때, TermWatch는 ‘supervised learning’, ‘unsupervised learning’, ‘neural network’, ‘deep learning’ 등 의미적으로 연관된 다중어를 자동 제안한다. 이는 기존 TermScience가 제공하는 단일 동의어 리스트보다 풍부하고 구조화된 확장 옵션을 제공한다는 점에서 실용성을 입증한다.

한계점으로는 용어 추출 단계에서 전문 분야별 고유 명사에 대한 사전 지식이 부족할 경우 오탐이 발생할 수 있다는 점과, 그래프 기반 군집화가 대규모 데이터에서 계산 비용이 높아지는 문제를 들 수 있다. 향후 연구에서는 도메인 특화 사전과 딥러닝 기반 의미 임베딩을 결합해 추출 정확도를 높이고, 분산 그래프 처리 프레임워크를 도입해 확장성을 개선할 계획이다.