가변 길이 간격 문자열 매칭의 새로운 최적 알고리즘

본 논문은 문자열 T와 가변 길이 간격(gap)으로 구분된 패턴 P 사이의 매칭 문제를 다룬다. 저자들은 발생 횟수 α와 간격 하한 합 A에 기반한 O(n log k + m + α) 시간·O(m + A) 공간 복잡도를 갖는 알고리즘을 제시한다. 이는 기존 방법들의 시간·공간 최적성을 동시에 달성한 최초의 결과이며, 구현이 간단하고 실제 바이오인포매틱스 응용에 적합하다. 또한 매칭에 포함된 각 서브스트링의 위치를 효율적으로 인코딩·출력하는 기법도…

저자: Philip Bille, Inge Li Goertz, Hjalte Wedel Vildh{o}j

가변 길이 간격 문자열 매칭의 새로운 최적 알고리즘
본 논문은 가변 길이 간격(VLG) 패턴 매칭 문제를 새롭게 접근한다. VLG 패턴 P는 문자열 P₁·g{a₁,b₁}·P₂·…·g{a_{k‑1},b_{k‑1}}·P_k 의 형태이며, 각 g{a_i,b_i} 는 길이가 a_i 이상 b_i 이하인 임의 문자열이다. 목표는 텍스트 T 내에서 P 와 일치하는 모든 서브스트링의 종료 위치를 찾는 것이다. **1. 기존 연구와 한계** - 정규식 변환 방식은 간격 상한 b_i 가 클 경우 σ^{b_i} 규모의 표현식으로 폭증해 O(n·(B·σ+m)) 시간을 요구한다. - 자동자 기반 알고리즘(Navarro·Raffinot, Frederikson·Grabowski 등)은 O(n·(m+B·w+1)) 시간· O(m+A) 공간을 제공하지만, w (워드 크기) 의 로그 요인 때문에 실질적인 효율이 제한된다. - Rahman·et al.·Morgan·et al.은 발생 횟수 α 에 비례하는 O(n log k + m + α) 시간을 달성했지만, 공간이 Θ(m+α) 로 커서 대규모 유전체 데이터에 부적합했다. **2. 주요 기여** - **Theorem 1**: O(n log k + m + α) 시간· O(m + A) 공간으로 VLG 매칭을 해결한다. 여기서 α 는 P₁…P_k 각 서브스트링이 T 내에 나타나는 총 횟수, A=∑a_i 는 모든 간격 하한의 합이다. - 알고리즘은 Aho‑Corasick 자동자를 기반으로 하며, “관련 발생(relevant occurrence)” 개념을 도입해 간격 제약을 효율적으로 검증한다. - 추가적으로, 매칭에 포함된 각 서브스트링의 위치를 그래프 형태로 인코딩·출력하는 두 가지 방법(블랙박스 방식·직접 확장 방식)을 제시한다. **3. 알고리즘 설계** - **다중 문자열 매칭**: 패턴 집합 {P₁,…,P_k} 에 대해 Aho‑Corasick 자동자를 구축한다. 자동자는 O(m log k) 시간· O(m) 공간을 사용한다. 텍스트 T 를 한 번 스캔하면서 모든 서브스트링 발생을 실시간으로 보고한다. - **관련 발생 정의**: P_i 의 발생 x (끝 위치 τ) 에 대해 R(x)=

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기