무한 이진 문자열에서 최소 반복과 칠삼분의 삼 제한
본 논문은 이진 알파벳 위에서 무한히 이어지는 문자열이 가질 수 있는 최소한의 제곱(스퀘어) 개수와, 7/3(≈2.333…)보다 큰 지수의 부분어를 피할 수 있는 가능성을 증명한다. 저자들은 12개의 제곱만을 포함하고, 지수가 7/3인 두 개의 부분어만을 갖는 무한 이진 단어의 존재를 보이며, 이는 제곱 개수와 지수 제한을 동시에 만족하는 최소 사례임을 입
초록
본 논문은 이진 알파벳 위에서 무한히 이어지는 문자열이 가질 수 있는 최소한의 제곱(스퀘어) 개수와, 7/3(≈2.333…)보다 큰 지수의 부분어를 피할 수 있는 가능성을 증명한다. 저자들은 12개의 제곱만을 포함하고, 지수가 7/3인 두 개의 부분어만을 갖는 무한 이진 단어의 존재를 보이며, 이는 제곱 개수와 지수 제한을 동시에 만족하는 최소 사례임을 입증한다. 또한 7/3을 ‘유한 반복 임계값(finite‑repetition threshold)’이라 정의하고, 삼진 알파벳에서는 7/4이 될 것이라는 추측을 제시한다.
상세 요약
이 논문은 전통적인 반복 임계값(repetitive threshold) 개념을 확장하여, ‘유한 반복 임계값(finite‑repetition threshold, FRT)’이라는 새로운 측정 지표를 도입한다. 기존의 반복 임계값은 알파벳 크기 k에 대해 모든 충분히 긴 단어가 지수 > r(k)인 부분어를 포함한다는 최소 실수 r(k)를 의미한다. 여기서 저자들은 ‘제곱(squares)’이라는 특수한 지수 2의 부분어를 제한하면서도, 지수가 7/3보다 큰 부분어는 전혀 나타나지 않도록 하는 무한 이진 단어의 존재를 증명한다.
핵심 아이디어는 두 단계의 구성법에 있다. 첫 번째 단계에서는 ‘마르코프 체인’ 혹은 ‘자동화(automaton)’ 기반의 교체 규칙을 설계해, 생성되는 단어가 특정 패턴(예: 00, 11 등)의 연속을 최소화하도록 만든다. 두 번째 단계에서는 이러한 교체 규칙을 반복 적용하면서, 발생 가능한 제곱을 철저히 분석한다. 저자들은 모든 가능한 길이의 제곱을 열거하고, 그 중 12개만이 실제로 나타날 수 있음을 보인다. 특히, 7/3 지수의 부분어는 ‘001001’과 ‘110110’ 두 종류만이 허용되며, 이는 가장 짧은 비제곱 반복을 초과하는 최소 지수이다.
증명 과정에서 사용된 ‘압축(Compression) 기법’은 부분어의 최소 주기를 계산하고, 주기와 길이의 비율을 통해 지수를 평가한다. 또한, ‘불가능성 증명(impossibility proof)’을 위해 반증법을 활용해, 제곱 개수가 11개 이하이면서 7/3 초과 지수를 피하는 무한 단어는 존재하지 않음을 보인다. 이는 기존에 알려진 ‘Thue‑Morse’와 같은 무한 비제곱 문자열이 지수 2를 초과하는 부분어를 포함한다는 사실과 대비된다.
논문은 또한 삼진 알파벳에 대한 추측을 제시한다. 이 경우, 저자들은 실험적 탐색을 통해 7/4(=1.75)라는 값이 FRT가 될 가능성이 높다고 주장한다. 이는 기존의 반복 임계값 7/4와 일치하며, 알파벳 크기가 증가함에 따라 FRT가 기존 임계값에 수렴한다는 가설을 뒷받침한다.
전반적으로 이 연구는 ‘제곱의 최소화’와 ‘지수 제한’이라는 두 목표를 동시에 달성하는 무한 문자열의 구조적 특성을 밝히며, 형식 언어 이론, 조합론, 그리고 알고리즘적 문자열 처리 분야에 새로운 연구 방향을 제시한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...