문자열에서 런의 지수 합에 대한 새로운 상한과 하한

문자열에서 런의 지수 합에 대한 새로운 상한과 하한
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 길이 n 인 문자열에서 모든 런(run)의 지수 합 σ(n)에 대한 새로운 상한과 하한을 제시한다. 상한은 4.1 n 으로 기존 5.6 n 보다 개선되었으며, 하한은 2.035 n 으로 기존 가설인 σ(n) < 2 n 을 반증한다. 또한 cubic run에 대해서는 σ_cubic(n) < 2.5 n 의 상한을 얻는다.

상세 분석

런은 문자열 내에서 2p ≤ |v| 를 만족하는 주기 p 를 갖는 최대 반복 구간으로 정의되며, 그 지수는 |v|/p 로 표현된다. 기존 연구에서는 런의 개수 ρ(n) 가 O(n) 임을 보였고, ρ(n) ≤ 1.029 n 정도까지 상한이 강화되었다. 그러나 지수 합 σ(n) 에 대해서는 명확한 상수값이 제시되지 않았으며, Kolpakov·Kucherov(1999)는 σ(n) < 2 n 라는 추측을 제시했다.

본 논문은 먼저 “핸들(handle)”이라는 개념을 활용한다. 각 런 v에 대해 그 주기 p 의 최소 회전어(w_min, w_max)를 구하고, 두 경우에 따라 v 내부의 특정 위치 집합 H(v)를 정의한다. 중요한 성질은 서로 다른 런의 핸들이 서로 겹치지 않으며, H(v)의 크기가 런의 지수와 직접적인 관계를 가진다는 점이다. 구체적으로, 단주기 런(R₁) 에서는 σ(v)=|H(v)|+1 이고, 다주기 런(R≥2) 에서는 ⎡σ(v)⎤ ≤ |H(v)|/2+3 이 성립한다.

이러한 관계식을 모든 런에 대해 합산하면
∑_{v∈R(u)}σ(v) ≤ 3·|R(u)| + n
이 된다. 여기서 |R(u)| 은 문자열 u 에 존재하는 런의 총 개수이며, 기존에 알려진 ρ(n) ≤ 1.029 n 을 대입하면
σ(n) < 3·1.029 n + n ≈ 4.1 n
이라는 새로운 상한을 얻는다. 동일한 방법을 cubic run에 적용하면 ρ_cubic(n) ≤ 0.5 n 를 이용해 σ_cubic(n) < 2.5 n 을 도출한다.

하한 측면에서는 두 개의 모프함수 φ와 ψ를 정의하여 무한히 많은 이진 문자열 w_i = ψ(φ^i(a)) 를 구성한다. 실험적으로 w_i 에서 측정된 σ(w_i)/|w_i| 값은 2.035 를 초과한다. 이 결과는 σ(n) < 2 n 라는 기존 추측을 반증하며, 실제 최적 상수는 2보다 크게 존재함을 시사한다.

결과적으로, 본 연구는 런의 지수 합에 대한 상한을 크게 개선하고, 하한을 통해 기존 가설을 부정함으로써 문자열 알고리즘 및 압축 이론에서 중요한 이론적 한계를 새롭게 정의한다.


댓글 및 학술 토론

Loading comments...

의견 남기기