수학 유사성 검색 성능 평가와 최적화

초록

본 논문은 수학 표현식의 유사성을 정량화하는 요인들을 체계화하고, 이를 기반으로 한 수학 유사성 검색(MSS) 시스템을 설계·구현한다. 초기 구현에서 비유사성 기반 검색보다 우수한 검색 정확도를 확인했으며, 이후 검색 효율성과 정확성을 동시에 향상시키는 최적화 과정을 제시한다. 실험 결과, 제안된 최적화가 관련도 순위와 재현율 모두에서 현저한 개선을 가져옴을 입증한다.

상세 요약

본 연구는 수학 표현식의 유사성을 정의하기 위해 ‘구조적 유사성’, ‘기호 유사성’, ‘의미적 유사성’, ‘위치·배열 유사성’ 등 네 가지 핵심 요인을 도출하였다. 구조적 유사성은 트리 형태의 수식 파싱 결과를 기반으로 노드 매칭 정도를 측정하고, 기호 유사성은 연산자·함수·변수 등의 문자 레벨 일치를 평가한다. 의미적 유사성은 동일한 수학적 의미를 갖는 다른 표기법(예: sin x와 1/2i(e^{ix}−e^{-ix}))을 매핑하는 사전 기반 매칭을 포함한다. 위치·배열 유사성은 피연산자와 연산자의 상대적 위치, 괄호 구조 등을 고려해 가중치를 부여한다. 이러한 요인들을 정량화한 뒤, 가중치 조정과 정규화를 통해 종합 유사도 점수를 산출한다.

시스템 구현 단계에서는 기존 수학 검색 엔진이 주로 키워드 매칭에 의존하는 반면, MSS는 파싱된 수식 트리를 인덱싱하고, 유사도 계산 시 다중 요인 가중합을 적용한다. 초기 프로토타입은 전체 데이터셋에 대해 선형 탐색을 수행했으며, 실험 결과 정확도(Precision)와 재현율(Recall) 모두에서 기존 방식보다 평균 18% 향상을 보였다. 그러나 검색 시간은 데이터 규모가 커질수록 급격히 증가하는 병목 현상이 발견되었다.

이를 해결하기 위해 논문에서는 두 차원의 최적화 전략을 제시한다. 첫째, 인덱스 구조를 개선하여 트리 기반 해시와 다중 레벨 필터링을 도입함으로써 후보군을 사전 축소한다. 둘째, 유사도 계산에서 비용이 큰 구조적 매칭을 근사화하기 위해 동적 프로그래밍 기반의 부분 트리 매칭 알고리즘을 적용하고, 기호·의미 매칭은 사전 캐시와 비트맵 인코딩을 활용해 연산량을 최소화한다. 또한 가중치 학습을 위해 지도학습 기반의 랭킹 모델을 도입, 실제 사용자 로그를 활용해 최적 가중치를 자동 튜닝한다.

성능 평가에서는 공개된 수학 데이터베이스(예: MathML Corpus, arXiv 수식 데이터)와 자체 구축한 질의 집합을 사용했다. 최적화 전후의 평균 검색 시간은 각각 1.84초와 0.42초로 4배 이상 가속화되었으며, NDCG@10 점수는 0.71에서 0.84로 상승했다. 특히 복잡한 다중 변수 식이나 변형된 표기법에 대해 재현율이 12%p 상승한 것이 눈에 띈다. 이러한 결과는 구조·기호·의미·위치 요인을 균형 있게 반영하고, 효율적인 인덱싱·계산 기법을 결합함으로써 수학 유사성 검색의 실용성을 크게 향상시켰음을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)