B트리 기반 효율적 퍼지 검색 엔진 설계

초록

본 논문은 클라우드 환경에서 발생하는 오탈자와 형식 불일치를 허용하는 퍼지 검색을 위해 B‑트리 구조를 활용한 검색 메커니즘을 제안한다. 보안·프라이버시를 고려한 설계와 효율성 분석을 통해 기존 정확도 기반 검색 방식의 한계를 극복하고자 한다.

상세 분석

본 연구는 퍼지 검색 문제를 트리 기반 탐색으로 재정의하고, B‑트리의 균형성과 높은 차수 특성을 이용해 대규모 키워드 집합에 대한 검색 효율을 극대화한다는 점에서 흥미롭다. B‑트리의 노드당 다중 키 저장은 디스크 I/O를 최소화하고, 검색 경로를 로그(N) 수준으로 제한함으로써 전통적인 선형 스캔 방식보다 월등히 빠른 응답 시간을 기대할 수 있다. 또한, 논문은 퍼지 매칭을 위해 Levenshtein 거리와 같은 편집 거리 기반 유사도 함수를 B‑트리 노드 탐색 과정에 통합하는 방안을 제시한다. 이때, 각 노드에서 후보 키워드 집합을 부분적으로 필터링하고, 거리 계산을 점진적으로 수행함으로써 불필요한 연산을 억제한다는 설계는 계산 복잡도 감소에 기여한다. 보안 측면에서는 검색 쿼리와 키워드 인덱스를 암호화된 형태로 저장하고, 검색 과정에서 동형암호 혹은 검색 가능한 암호(SSE) 기법을 적용해 서버가 원문을 알 수 없도록 설계하였다. 그러나 구체적인 암호화 스킴과 키 관리 방안에 대한 상세 설명이 부족하여 실용성 평가에 한계가 있다. 실험 부분에서는 클라우드 기반 데이터셋을 이용해 정확도, 재현율, 처리 시간 등을 기존 해시 기반 퍼지 검색 및 트라이 기반 방법과 비교했으나, 실험 설정(데이터 규모, 오탈자 비율, 네트워크 지연 등)이 충분히 기술되지 않아 결과의 일반화 가능성을 판단하기 어렵다. 또한, B‑트리의 재균형 비용과 동시 다중 사용자 환경에서의 락 관리, 캐시 효율성 등에 대한 논의가 빠져 있어 실제 서비스 적용 시 발생할 수 있는 병목 현상을 예측하기 힘들다. 전반적으로 B‑트리와 퍼지 검색을 결합한 아이디어는 신선하지만, 알고리즘 복잡도 분석, 보안 프로토콜 상세화, 대규모 실험 검증 등에서 보완이 필요하다.