트릴리언 규모 코퍼스를 위한 초고속 소프트 패턴 매처 SoftMatcha 2

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SoftMatcha 2는 접미사 배열과 디스크‑인식 설계를 결합해 1.4 조 토큰 규모의 자연어 코퍼스를 0.3 초 이내에 검색한다. 쿼리의 의미적 변형(대치·삽입·삭제)을 지원하면서도, 동적 코퍼스‑인식 가지치기로 후보 패턴 수의 지수적 폭증을 억제한다. 실험 결과, 기존 인피니그램·SoftMatcha 대비 2~3배 빠른 지연 시간을 보이며, 벤치마크 오염 탐지 등 실용적 응용에서도 우수한 성능을 입증한다.

상세 분석

SoftMatcha 2는 트릴리언(10¹²) 수준의 토큰을 보유한 대규모 코퍼스에 대해 “소프트” 검색을 실현하기 위해 두 가지 핵심 알고리즘을 도입한다. 첫 번째는 디스크‑인식(staged) 접미사 배열이다. 기존 접미사 배열 기반 인덱스는 전체 인덱스를 메모리에 적재할 수 없기 때문에 무작위 디스크 접근이 빈번해 성능이 급격히 저하된다. 저자들은 Google BigTable에서 영감을 얻어 1단계에서 후보 구간을 좁히고, 2단계에서 정확한 매치를 확인하는 두 단계 구조를 설계하였다. 이 과정에서 각 정확 매치당 디스크 접근을 한 번으로 제한하고, 런‑길이 압축을 적용해 인덱스 크기를 56 TB에서 21.6 TB로 감소시켰다. 결과적으로 인피니그램 대비 약 33배 빠른 정확 매치 속도를 달성한다.

두 번째는 동적 코퍼스‑인식 가지치기이다. 의미적 완화(대치·삽입·삭제)를 허용하면 후보 패턴 수가 쿼리 길이에 대해 지수적으로 증가한다는 전통적인 문제를 해결한다. 저자들은 자연어 코퍼스가 파워‑법칙(Zipf) 분포를 따른다는 사실을 이용해, 빈도가 낮은 n‑gram을 우선적으로 배제한다. 구체적으로, 후보 생성 단계에서 현재까지 구성된 패턴이 코퍼스 내에 존재하는지 빠르게 확인하고, 존재하지 않을 경우 해당 경로를 즉시 차단한다. 이 과정은 반복적으로 수행되며, 각 단계에서 후보 집합을 급격히 축소한다.

또한, 유사도 정의를 개선하였다. 기존 SoftMatcha는 토큰 간 최소 코사인 유사도만을 사용했으나, SoftMatcha 2는 β = 10⁴인 파라미터를 적용한 부드러운 최소(smooth‑min) 함수를 도입해 모든 토큰의 유사도를 균형 있게 반영한다. 삽입·삭제에 대해서는 해당 토큰의 벡터 노름을 이용한 지수형 페널티(exp(−v/γ))를 적용해, 정보량이 적은 기능어는 큰 페널티를 부과하지 않도록 설계했다.

실험에서는 FineWeb‑Edu(1.4 조 토큰)와 중국·일본어 대규모 코퍼스(각각 38.3 B·169 B 토큰)에서 95번째 백분위수 지연을 278 ms(소프트)·0.34 ms(정확) 수준으로 기록했다. 이는 기존 인피니그램·SoftMatcha 대비 2~3배 빠른 수치이며, 다국어 지원에서도 일관된 성능을 보였다. 실용적 평가로는 벤치마크 데이터셋(예: MMLU, GSM‑8K)과의 오염 여부를 탐지했으며, 기존 도구가 놓친 미세한 중복 사례까지 식별했다. 마지막으로 100 B 토큰 규모의 영어 코퍼스를 대상으로 온라인 데모를 제공, 실시간 소프트 검색이 가능함을 시연했다.

이러한 설계는 디스크 I/O 최소화, 통계적 코퍼스 특성 활용, 정교한 유사도 모델링이라는 세 축을 결합해, 트릴리언 규모 코퍼스에서도 실시간에 가까운 의미 기반 검색을 가능하게 만든다. 향후 연구에서는 더 복잡한 구문 구조(예: 의존 구문 트리)와 멀티모달 데이터에 대한 확장이 기대된다.

트릴리언 규모 코퍼스를 위한 초고속 소프트 패턴 매처 SoftMatcha 2

초록

상세 분석

댓글 및 학술 토론

의견 남기기