가변 길이 간격 문자열 매칭의 새로운 최적 알고리즘
본 논문은 문자열 T와 가변 길이 간격(gap)으로 구분된 패턴 P 사이의 매칭 문제를 다룬다. 저자들은 발생 횟수 α와 간격 하한 합 A에 기반한 O(n log k + m + α) 시간·O(m + A) 공간 복잡도를 갖는 알고리즘을 제시한다. 이는 기존 방법들의 시간·공간 최적성을 동시에 달성한 최초의 결과이며, 구현이 간단하고 실제 바이오인포매틱스 응용에 적합하다. 또한 매칭에 포함된 각 서브스트링의 위치를 효율적으로 인코딩·출력하는 기법도…
저자: Philip Bille, Inge Li Goertz, Hjalte Wedel Vildh{o}j
본 논문은 가변 길이 간격(VLG) 패턴 매칭 문제를 새롭게 접근한다. VLG 패턴 P는 문자열 P₁·g{a₁,b₁}·P₂·…·g{a_{k‑1},b_{k‑1}}·P_k 의 형태이며, 각 g{a_i,b_i} 는 길이가 a_i 이상 b_i 이하인 임의 문자열이다. 목표는 텍스트 T 내에서 P 와 일치하는 모든 서브스트링의 종료 위치를 찾는 것이다.
**1. 기존 연구와 한계**
- 정규식 변환 방식은 간격 상한 b_i 가 클 경우 σ^{b_i} 규모의 표현식으로 폭증해 O(n·(B·σ+m)) 시간을 요구한다.
- 자동자 기반 알고리즘(Navarro·Raffinot, Frederikson·Grabowski 등)은 O(n·(m+B·w+1)) 시간· O(m+A) 공간을 제공하지만, w (워드 크기) 의 로그 요인 때문에 실질적인 효율이 제한된다.
- Rahman·et al.·Morgan·et al.은 발생 횟수 α 에 비례하는 O(n log k + m + α) 시간을 달성했지만, 공간이 Θ(m+α) 로 커서 대규모 유전체 데이터에 부적합했다.
**2. 주요 기여**
- **Theorem 1**: O(n log k + m + α) 시간· O(m + A) 공간으로 VLG 매칭을 해결한다. 여기서 α 는 P₁…P_k 각 서브스트링이 T 내에 나타나는 총 횟수, A=∑a_i 는 모든 간격 하한의 합이다.
- 알고리즘은 Aho‑Corasick 자동자를 기반으로 하며, “관련 발생(relevant occurrence)” 개념을 도입해 간격 제약을 효율적으로 검증한다.
- 추가적으로, 매칭에 포함된 각 서브스트링의 위치를 그래프 형태로 인코딩·출력하는 두 가지 방법(블랙박스 방식·직접 확장 방식)을 제시한다.
**3. 알고리즘 설계**
- **다중 문자열 매칭**: 패턴 집합 {P₁,…,P_k} 에 대해 Aho‑Corasick 자동자를 구축한다. 자동자는 O(m log k) 시간· O(m) 공간을 사용한다. 텍스트 T 를 한 번 스캔하면서 모든 서브스트링 발생을 실시간으로 보고한다.
- **관련 발생 정의**: P_i 의 발생 x (끝 위치 τ) 에 대해 R(x)=
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기