이진 문자열 매칭의 효율적 알고리즘

본 논문은 0·1 알파벳으로 구성된 텍스트와 패턴에서 모든 발생 위치를 찾는 이진 문자열 매칭 문제에 대해, 비트 단위 연산을 배제하고 바이트 단위로 처리하도록 설계된 두 가지 새로운 알고리즘을 제안한다. 기존의 비트 기반 변형 알고리즘보다 실험적으로 우수한 성능을 보이며, 특히 대용량 네트워크 데이터와 압축 텍스트에서의 적용 가능성을 강조한다.

저자: Simone Faro, Thierry Lecroq

본 논문은 0과 1만으로 이루어진 텍스트와 패턴에서 모든 일치 위치를 찾는 이진 문자열 매칭 문제를 다룬다. 이 문제는 텔레콤, 네트워크 프로토콜, 이미지 처리, 압축 텍스트 검색 등 다양한 실용 분야에서 등장한다. 기존의 문자열 매칭 알고리즘을 그대로 적용하면 비트 단위 접근이 필요해 성능이 급격히 저하된다. 특히 Boyer‑Moore, KMP 등 고전 알고리즘은 문자 단위(보통 8비트)로 동작하도록 설계돼, 이진 문자열에서는 비트 마스크와 시프트 연산을 반복해야 한다. 이에 저자들은 “비트를 완전히 배제하고 바이트 단위로만 처리”하는 고수준 모델을 제안한다. 모델의 핵심은 두 개의 2차원 테이블, Patt와 Mask이다. Patt

이진 문자열 매칭의 효율적 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기