자동화와 무한 차분 가능 단어의 구조적 탐구
초록
본 논문은 k‑차분 가능(k‑differentiable) 단어들의 정규 언어를 인식하는 결정적 유한 자동자를 최소 금지어(minimal forbidden words) 기법으로 구성하고, 이를 무한히 확장하여 모든 C∞‑단어(무한 차분 가능 단어)를 표현하는 무한 자동자를 제시한다. 또한 3‑문자 알파벳을 이용한 새로운 표현 체계를 도입해 자동자를 압축하고, 각 C∞‑단어가 길이가 다항식 상한을 갖는 반복 uz u 형태를 포함함을 증명한다.
상세 분석
이 연구는 먼저 1·2 알파벳 Σ={1,2} 위에서 정의되는 차분 연산 D와 그 반복 D^k를 이용해 k‑차분 가능 언어 C_k를 정의한다. C_k는 D^j(w) (0≤j<k) 가 모두 111·222와 같은 연속 3개의 동일 기호를 포함하지 않는 단어들의 집합이며, 이는 “최소 금지어” MF(C_k) 로 완전히 기술될 수 있다. 저자들은 Crochemore 등(2009)의 L‑자동자(L‑automaton) 절차를 활용해 MF(C_k) 로부터 트라이(trie)를 구축하고, 이를 입력으로 삼아 결정적 자동자 A_k 를 생성한다. A_k는 C_k를 정확히 인식하며, 상태 간 전이 구조는 ‘고체(edge)’와 ‘약한(edge)’ 두 종류로 구분된다. 고체 전이는 트라이에 존재하는 접두어를 따라가고, 약한 전이는 실패 함수 s에 의해 가장 긴 접미어 상태로 되돌아가는 방식이다.
k를 무한대로 보내면 MF(C_∞) 가 무한히 늘어나므로 A_∞ 역시 무한 상태를 갖는 자동자가 된다. A_∞의 각 경로는 유일하게 C_∞‑단어를 라벨링하며, 같은 최종 상태에 도달하는 경로들의 라벨은 ‘좌측 단순 연장성(left simple extendability)’에 의해 동등하게 구분된다. 즉, 한 상태에 도달한 두 단어 w₁, w₂는 1·w₁와 2·w₁ 중 정확히 하나만이 C_∞‑단어가 되는 성질을 공유한다.
다음 단계에서는 자동자 압축(compaction) 기법을 적용해 C_A_∞ 를 만든다. 여기서는 동일한 전이 라벨을 갖는 연속 상태들을 하나의 상태로 합쳐 상태 수를 크게 줄인다. 이후 저자들은 Σ’={0,1,2} 로 확장된 ‘수직 표현(vertical representation)’을 도입한다. 각 C_∞‑단어는 두 개의 수열 (p,q) 로 일대일 대응되며, 이는 원래 1·2 알파벳 위의 차분 구조를 0·1·2 알파벳 상에서 트리 형태로 재구성한 것이다. 이 표현을 이용해 자동자 V_C_A_∞ 를 정의하고, 다시 압축해 V_U_C_A_∞ 를 얻는다.
V_U_C_A_∞ 의 구조적 특성을 이용하면, 임의의 C_∞‑단어 u에 대해 적절한 z가 존재해 uz u 가 다시 C_∞‑단어가 됨을 보인다. 더 나아가 |uz u| ≤ C·|u|²·⁷² (C는 상수) 라는 다항식 상한을 얻는다. 이는 기존에 Carpi가 증명한 “반복의 하한은 선형”과는 대조적인 결과이며, 특히 u=v인 경우 문제 1을 해결한다.
전체적으로 이 논문은 최소 금지어 기반 자동자 구축, 무한 자동자와 그 압축, 그리고 새로운 3‑문자 수직 표현을 결합해 C_∞‑단어의 구조와 반복성을 깊이 있게 분석한다. 제시된 방법론은 Kolakoski 단어와 같은 미해결 문제에 대한 새로운 접근법을 제공하며, 자동화된 언어 이론과 조합적 문자열 연구 사이의 교량 역할을 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기