핵심문장 기반 지문 매칭을 활용한 텍스트 유사도 탐지

초록

본 논문은 기존 지문 매칭 방식이 대용량 텍스트에서 발생하는 시간·공간 비용을 감소시키기 위해, 각 문서에서 핵심 문장을 추출한 뒤 이들에만 지문 매칭을 적용하는 새로운 플래그리즘을 제안한다. 핵심 문장 선택을 위한 네 가지 특징(문장 길이, 키워드 빈도, 위치 가중치, 의미적 중심성)을 이용해 비교 대상 문장을 축소함으로써 효율성을 높이면서도 표절 탐지 정확도는 유지한다.

상세 요약

이 연구는 텍스트 유사도 측정에서 가장 널리 쓰이는 지문 매칭 기법의 근본적인 한계를 짚는다. 전통적인 지문 매칭은 전체 문서를 n‑gram 단위로 분할해 해시값을 생성하고, 두 문서 간 해시 집합의 교집합 비율을 유사도 점수로 환산한다. 하지만 문서 길이가 길어질수록 n‑gram 수가 기하급수적으로 증가해 메모리 사용량과 비교 연산 시간이 급증한다는 문제가 있다. 저자들은 이를 해결하기 위해 “핵심 문장 선택”이라는 전처리 단계를 도입한다. 핵심 문장은 네 가지 특징을 종합해 점수를 매긴 뒤 상위 k 개를 추출한다. 첫 번째 특징은 문장 길이로, 지나치게 짧은 문장은 정보량이 적어 제외한다. 두 번째는 키워드 빈도로, TF‑IDF 기반 가중치를 적용해 핵심 용어가 많이 포함된 문장을 선별한다. 세 번째는 위치 가중치로, 서론·결론·요약 등 구조적 중요도가 높은 구간에 위치한 문장에 가산점을 부여한다. 마지막으로 의미적 중심성은 문장 간 코사인 유사도 행렬을 기반으로, 전체 문서 내에서 중심적인 역할을 하는 문장을 파악한다. 이러한 특징 결합은 단순 길이 기반 필터링보다 더 정교하게 의미 핵심을 포착한다는 점에서 의의가 크다. 핵심 문장만을 대상으로 지문 매칭을 수행하면 n‑gram 수가 크게 감소하므로 해시 테이블 크기가 작아지고, 비교 연산도 O(k²) 수준으로 축소된다. 실험 결과, 기존 전체 문서 대비 60 % 이상의 시간 절감과 40 % 이하의 메모리 사용 감소를 보였으며, 표절 탐지 정확도(Precision·Recall)는 0.92 수준으로 기존 방법과 통계적으로 유의미한 차이가 없었다. 또한, 다양한 언어와 장르(학술 논문, 블로그, 뉴스)에서 일관된 성능을 유지함을 확인했다. 한계점으로는 핵심 문장 추출 단계에서 k값 선택이 결과에 민감하게 작용한다는 점과, 매우 짧은 문서에서는 핵심 문장 자체가 부족해 성능 저하가 발생할 수 있다는 점을 들었다. 향후 연구에서는 동적 k값 조정 및 딥러닝 기반 문장 임베딩을 결합해 더욱 일반화된 프레임워크를 구축하고자 한다.

초록

상세 요약

📜 논문 원문 (영문)