상태 제거 순서 전략에 대한 실험적 연구

본 논문은 유한 자동자를 정규식으로 변환할 때 발생하는 지수적 크기 증가를 완화하기 위해 다양한 상태 제거 순서 휴리스틱을 분석하고, 새롭게 제안된 전략들을 포함한 실험적 비교를 수행한다. 무작위로 생성된 결정적 유한 자동자를 대상으로 각 전략의 정규식 길이와 연산자 수를 측정하여 효율성을 평가한다.

상태 제거 순서 전략에 대한 실험적 연구

초록

본 논문은 유한 자동자를 정규식으로 변환할 때 발생하는 지수적 크기 증가를 완화하기 위해 다양한 상태 제거 순서 휴리스틱을 분석하고, 새롭게 제안된 전략들을 포함한 실험적 비교를 수행한다. 무작위로 생성된 결정적 유한 자동자를 대상으로 각 전략의 정규식 길이와 연산자 수를 측정하여 효율성을 평가한다.

상세 요약

정규식 변환 과정에서 가장 핵심적인 단계는 상태 제거(state elimination)이다. 이 단계에서는 현재 자동자의 상태를 하나씩 삭제하면서 해당 상태에 연결된 입·출력 전이들을 새로운 정규식 라벨로 결합한다. 상태를 어떤 순서로 제거하느냐에 따라 최종 정규식의 크기가 크게 달라지며, 최악의 경우 지수적 폭발을 보인다. 기존 연구에서는 ‘입 차수 최소(min‑in‑degree)’, ‘출 차수 최소(min‑out‑degree)’, ‘전체 차수 최소(min‑total‑degree)’, ‘가중치 최소(min‑weight)’, ‘최소 경로 길이(min‑path)’ 등 여러 휴리스틱이 제안되었지만, 각 방법의 실제 성능은 자동자의 구조적 특성에 따라 크게 변동한다는 점이 충분히 검증되지 않았다.

본 논문은 이러한 기존 휴리스틱을 재현하고, 두 가지 새로운 전략을 추가한다. 첫 번째는 ‘혼합 점수 기반(Combined‑Score) 전략’으로, 입·출 차수와 전이 라벨의 길이를 가중 평균하여 점수를 산출하고, 점수가 가장 낮은 상태를 우선 제거한다. 두 번째는 ‘전방 탐색(look‑ahead) 전략’으로, 현재 후보 상태를 제거했을 때 발생할 수 있는 라벨 길이 증가를 한 단계 앞서 예측하고, 예상 증가량이 최소인 상태를 선택한다. 또한, 무작위 순서(Random)와 ‘최대 차수 우선(Max‑degree) 전략’도 비교 대상으로 포함한다.

실험 설계는 다음과 같다. 알파벳 크기 Σ∈{2,3,4}와 상태 수 n∈{10,20,30,40,50}를 조합하여 균등 무작위 DFA를 500개씩 생성한다. 각 DFA에 대해 7가지 전략을 적용하고, 변환된 정규식의 총 문자 길이(L)와 연산자(+,·,∗) 개수(O)를 측정한다. 성능 평가는 평균 L·O 비율과 최악 사례의 상위 5%를 별도로 분석함으로써 평균적 효율성과 안정성을 동시에 검토한다.

결과는 몇 가지 중요한 통찰을 제공한다. 첫째, 단순 최소 차수 전략은 평균적으로는 괜찮은 성능을 보이지만, 밀도가 높은 DFA(전이 비율 >0.7)에서는 라벨 결합이 급격히 늘어나 최악 사례에서 큰 폭의 폭발을 일으킨다. 둘째, 새롭게 제안한 혼합 점수 전략은 입·출 차수와 라벨 길이를 동시에 고려함으로써 대부분의 경우 평균 L·O를 12% 정도 감소시켰으며, 특히 알파벳이 큰 경우에 효과가 두드러졌다. 셋째, 전방 탐색 전략은 계산 비용이 다소 높지만, 최악 사례 상위 5%에서 L·O를 평균 18% 감소시키는 등 안정성 면에서 가장 우수했다. 넷째, 무작위 순서는 가장 낮은 평균 성능을 보였으며, 이는 순서 선택이 무작위일 경우 라벨 결합이 통제되지 않음을 확인시킨다.

또한, 실험을 통해 ‘상태 제거 순서가 정규식 크기에 미치는 영향은 자동자 구조와 알파벳 크기에 크게 의존한다’는 결론을 도출한다. 밀도가 낮고 알파벳이 작은 DFA에서는 모든 전략 간 차이가 미미했지만, 복잡도가 높아질수록 전략 선택이 결과에 결정적 영향을 미친다. 마지막으로, 제안된 휴리스틱들은 구현 복잡도와 실행 시간 사이의 트레이드오프를 고려해야 함을 강조한다. 전방 탐색은 가장 좋은 품질을 제공하지만 O(n²) 수준의 추가 연산이 필요하고, 혼합 점수 전략은 O(n) 수준의 비용으로 충분히 좋은 결과를 얻는다.

이러한 분석은 정규식 변환 도구 설계 시, 자동자의 특성을 사전에 파악하고 적절한 상태 제거 순서 전략을 선택함으로써 실용적인 성능 향상을 기대할 수 있음을 시사한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...