문자열학 기반 고반복 시퀀스 예측: 효율 알고리즘과 복잡도 경계

본 논문은 문자열학(Stringology)에서 영감을 얻은 두 가지 복잡도 척도를 활용해, 고반복(높은 압축 가능) 시퀀스를 온라인으로 예측하는 새로운 알고리즘을 제시한다. 연구 동기는 기존의 예측 방법이 계산 효율성, 오류 보장, 그리고 도메인 불특정성이라는 세 가지 요구를 동시에 만족시키지 못한다는 점에 있다. 특히, 솔로모노프 귀납법은 이론적으로 최적이지만 계산 불가능하고, 딥러닝 기반 예측은 실용적이지만 오류 경계가 아직 미비하다. 이러한 격차를 메우기 위해 저자는 “문자열학 복잡도 측정”이라는 개념을 도입한다. 먼저, 시퀀스 예측을 “상태 기반 온라인 프로토콜”로 정의한다. 예측기 P 는 내부 상태 집합 S, 초기 상태 s₀, 상태 전이 함수 Δ, 그리고 예측 함수 π 로 구성된다. 매 라운드 t에서 P는 현재 상태 sₜ를 기반으로 심볼 ŷₜ 을 출력하고, 실제 심볼 xₜ 이 관측되면 Δ(sₜ, xₜ)로 다음 상태 sₜ₊₁을 만든다. 오류 횟수는 전체 라운드에서 ŷₜ≠xₜ인 경우의 합으로 정의한다. 다음으로, 복잡도 측정 함수 C 를 “단어 복잡도 측정”이라 정의한다. 이는 (i) 다항식 상한 poly(n) 이 존재해 모든 길이 n 단어 w에 대해 C(w)≤poly(n) 이고, (ii) 근사 단조성(approximate monotonicity)을 만족한다는 두 조건을 가진다. 이러한 C에 대해 통계적 효율성은 오류 횟수가 Õ(C·log n) (여기서 Õ는 로그 팩터를 무시) 이하가 되는 것을 의미한다. 계산적 효율성은 상태 업데이트와 예측 연산이 Õ(log n) 시간에 수행되고, 전체 메모리 사용량이 Õ(C·log n) 이하인 것을 요구한다. 핵심 이론적 도구는 “카운팅 기준”이다. 길이 n 단어 중 C‑복잡도가 ≤ m 인 단어의 개수를 N(n,m) 라 하면, 로그 N(n,m) ≤ O(m·log n) 일 때만 C에 대해 통계적으로 효율한 예측기가 존재한다는 정리를 증명한다. 이는 복잡도와 학습 난이도 사이의 근본적인 관계를 명시한다. 첫 번째 복잡도 척도는 k‑automaticity 이다. 이는 시퀀스 x 의 각 인덱스 i 를 k‑진수로 표현하고, 그 문자열을 입력으로 받아 x

문자열학 기반 고반복 시퀀스 예측: 효율 알고리즘과 복잡도 경계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기