린든 단어와 초단축 문자열

린든 단어와 초단축 문자열

초록

본 논문은 최단 초단축 문자열 문제에 대한 기존 2½‑근사 한계를 깨고 2 11⁄23≈2.478의 새로운 근사 비율을 제시한다. 표준적으로 최단 초단축 문자열을 최대 비대칭 TSP 경로(Max‑ATSP‑Path) 문제로 환원한 뒤, 현재 최선의 2⁄3‑근사 알고리즘과 단순 사이클 커버 기반 1⁄2‑근사 알고리즘 중 더 좋은 해를 선택한다. 이 선택이 실제로 개선을 보장하도록, 저자들은 문자열 겹침 구조를 새롭게 분석하고, 기존 연구에서 사용된 일반적인 무경계 회전과 임계 분해 대신 린든 단어(Lyndon word)를 핵심 도구로 활용한다. 이를 통해 겹침 그래프의 특성을 정밀히 파악하고, 근사 비율을 향상시킬 수 있는 새로운 이론적 토대를 마련한다.

상세 분석

Shortest‑Superstring 문제는 주어진 문자열 집합 S의 모든 원소를 부분 문자열로 포함하는 최소 길이의 문자열을 찾는 NP‑hard 문제이며, 오랫동안 2.5배 근사 알고리즘이 최선으로 알려져 왔다. 기존 2.5‑근사는 Sweedyk(1999)의 방법을 시작으로 Kaplan et al., Paluch et al.가 Max‑ATSP‑Path로의 환원을 이용해 동일한 비율을 재현한 것이 전부였다. 본 논문은 이 전통적인 환원 틀을 유지하면서, 두 개의 서로 다른 Max‑ATSP‑Path 근사 전략을 병행한다는 점에서 혁신적이다. 첫 번째 전략은 현재 알려진 2⁄3‑근사 알고리즘을 적용해, 그래프의 사이클 커버를 최대화하고 이를 경로로 변환한다. 두 번째 전략은 보다 직관적인 1⁄2‑근사 방법으로, 모든 정점을 포함하는 최소 사이클 커버를 구한 뒤, 각 사이클을 임의의 순서로 연결해 경로를 만든다. 두 해 중 길이가 짧은 것을 선택함으로써, 최악의 경우에도 두 근사 비율의 평균보다 나은 결과를 얻을 수 있다.

핵심 이론적 기여는 문자열 겹침 구조에 대한 새로운 분석 프레임워크이다. Breslauer et al.는 무경계 회전(unbordered rotation)과 임계 분해(critical factorization)를 이용해 겹침 그래프의 특성을 파악했지만, 이러한 도구는 경우에 따라 복잡하고 경계 상황을 다루기가 어려웠다. 저자들은 대신 Lyndon word, 즉 사전순으로 가장 작은 비주기적 회전을 활용한다. Lyndon word는 고유한 최소 회전성을 보장하므로, 두 문자열 사이의 최대 겹침 길이를 정확히 추정할 수 있는 “Lyndon 기반 겹침 인덱스”를 정의한다. 이 인덱스를 통해, 겹침 그래프의 간선 가중치를 상한·하한으로 제한하고, 특히 사이클 커버 내에서 발생하는 “중복 겹침” 현상을 정량화한다. 결과적으로, 사이클 커버 기반 1⁄2‑근사와 2⁄3‑근사 사이의 차이를 좁히는 데 필요한 추가적인 보정값을 정확히 계산할 수 있다.

또한 논문은 이러한 Lyndon 기반 분석이 기존의 임계 분해보다 더 강력한 구조적 정리를 제공한다는 점을 증명한다. 구체적으로, 모든 문자열이 Lyndon word의 회전으로 표현될 수 있음을 보이고, 이때 발생하는 “접두사‑접미사 일치” 관계를 그래프 이론적 용어로 변환한다. 이를 통해, Max‑ATSP‑Path의 최적 경로가 반드시 일정 비율 이상을 차지한다는 새로운 하한을 도출한다. 최종적으로, 두 근사 해 중 최적 선택을 하면 전체 알고리즘의 근사 비율이 2 11⁄23으로 향상됨을 보이며, 이는 2.5보다 약 0.022만큼 개선된 수치이다.

이러한 결과는 단순히 상수 하나를 낮춘 것에 그치지 않고, 문자열 이론과 그래프 이론을 연결하는 새로운 방법론을 제시한다는 점에서 학문적 의의가 크다. 특히 Lyndon word를 활용한 겹침 분석은 향후 다른 문자열 최적화 문제(예: 문자열 압축, 패턴 매칭)에도 적용 가능성이 높으며, Max‑ATSP‑Path와 같은 조합 최적화 문제와의 교차 연구에 새로운 영감을 제공한다.