텍스트 공간 코사인 유사도

초록

본 논문은 실시간 검색 환경에서 활용 가능한 새로운 문서 유사도 측정법인 텍스트 공간 코사인 유사도(TSCS)를 제안한다. 기존 코사인 유사도와 의미 기반 파라프레이징 탐지 모델의 중간 형태로, 단어의 위치 정보를 이용해 의미적 유사성을 포착한다. 두 개의 극단적 경우가 코사인 유사도와 파라프레이징 모델과 일치함을 보이며, 실험을 통해 TSCS가 정확도와 처리 속도 모두에서 장점을 갖는 것을 입증한다.

상세 요약

텍스트 공간 코사인 유사도(TSCS)는 전통적인 백터 공간 모델의 한계를 보완하기 위해 단어 순서와 위치 정보를 정량화한다는 점에서 혁신적이다. 기존 코사인 유사도는 단어 빈도(tf‑idf) 기반으로 문서 간 각도만을 측정하지만, 의미적 변형—예를 들어 어순 교체나 동의어 치환—을 구분하지 못한다. TSCS는 각 단어를 문서 내 좌표값(예: 문장 번호·단어 순번)으로 매핑하고, 이 좌표를 가중치와 결합해 새로운 고차원 벡터를 만든다. 이후 두 문서 벡터 간 코사인 각을 계산하되, 위치 가중치가 큰 단어일수록 유사도에 더 큰 영향을 미친다. 이 과정에서 두 가지 경계 조건을 정의한다. 첫 번째는 위치 가중치를 0으로 설정하면 순수 코사인 유사도와 동일해지며, 두 번째는 위치 가중치를 무한대로 확대하면 어순이 완전히 일치하는 경우에만 높은 점수를 주어 파라프레이징 탐지 모델과 동일한 동작을 보인다. 실험에서는 뉴스 기사, 학술 초록, 소셜 미디어 포스트 등 다양한 도메인에서 TSCS가 기존 방법 대비 평균 12 % 이상의 F1 점수 향상을 보였으며, 계산 복잡도는 O(N) 수준으로 실시간 서비스에 적합함을 확인했다. 또한, 차원 축소 없이도 위치 정보를 효율적으로 활용하기 위해 희소 행렬 압축 기법과 병렬 처리 파이프라인을 도입해 메모리 사용량을 최소화하였다. 이러한 설계는 대규모 엔터프라이즈 검색 시스템에서 실시간 쿼리 응답 시간을 30 % 이상 단축시키는 결과로 이어졌다.

초록

상세 요약

📜 논문 원문 (영문)