이진 문자열의 쌍둥이 정규성 정리와 일반화

이진 문자열의 쌍둥이 정규성 정리와 일반화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 길이 $n$인 이진 문자열을 두 개의 동일한 산발(스캐터드) 부분문자열, 즉 ‘쌍둥이’로 거의 완전히 분할할 수 있음을 보인다. 정규성 보조정리를 이용해 $2f(n,{0,1})=n-o(n)$를 증명하고, 알파벳 크기가 $k$ 이하인 경우 $k$개의 동일 부분문자열을 얻는 일반화도 제시한다.

상세 분석

본 연구는 문자열 이론에서 오래된 “쌍둥이” 문제에 새로운 관점을 제공한다. 기존에는 임의의 이진 문자열 $S$에 대해 길이 $m$인 두 개의 서로 겹치지 않는 동일 산발 부분문자열이 존재한다는 하한값만 알려져 있었으며, 그 정확한 규모는 미지였다. 저자들은 그래프 이론에서 영감을 얻은 ‘정규성 보조정리(regularity lemma for words)’를 도입함으로써, 문자열을 일정한 길이의 블록으로 나누고 각 블록 내에서 문자 분포가 거의 균등함을 보장한다. 이때 블록들의 ‘정규성’은 두 블록 사이의 문자 쌍 빈도가 기대값과 크게 차이나지 않음을 의미한다.

정규성 보조정리를 적용하면, 전체 문자열을 $t$개의 구간으로 분할했을 때, 대부분의 구간이 ‘정규’하고, 남은 ‘비정규’ 구간의 총 길이는 $o(n)$에 불과함을 얻는다. 정규 구간들에 대해서는 확률적 선택을 통해 동일한 산발 부분문자열을 구성할 수 있다. 구체적으로, 각 정규 구간에서 0과 1의 비율이 거의 $1/2$에 가깝다면, 무작위로 같은 위치를 선택해 두 개의 부분문자열을 만들면, 기대 길이는 구간 길이의 절반에 근접한다. 마코프 부등식과 큰 수의 법칙을 이용해 편차를 제어하면, 전체 문자열에서 얻어지는 두 부분문자열의 길이 합은 $n-o(n)$가 된다. 따라서 $2f(n,{0,1})=n-o(n)$가 성립한다.

또한 저자들은 알파벳 크기가 $k$ 이하인 경우를 다루며, 동일한 논리를 $k$개의 ‘쌍둥이’로 확장한다. 이때 정규성 보조정리의 파라미터를 적절히 조정하면, $k$개의 동일 산발 부분문자열을 동시에 구성할 수 있고, 남는 부분의 길이는 여전히 $o(n)$ 수준이다. 이 결과는 기존의 상한·하한 사이의 격차를 크게 줄이며, 문자열 압축, 패턴 매칭, 그리고 정보 이론적 응용에 중요한 함의를 가진다.

핵심적인 기술적 기여는 (1) 문자열에 대한 정규성 보조정리의 정식화, (2) 정규 구간에서의 확률적 선택을 통한 동일 부분문자열 구성 방법, (3) 비정규 구간의 길이를 $o(n)$으로 제한하는 정밀한 분석이다. 이러한 접근은 기존의 결정론적 방법보다 훨씬 강력하며, 향후 더 복잡한 구조(예: 다중 알파벳, 가중 문자열)에도 적용 가능성을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기