다양한 비계층형 하향 트리 자동자 간 변환의 상태 복잡도

초록

본 논문은 비계층형(무계층) 트리 자동자의 네 가지 변형—Deterministic Bottom‑Up (DBU), Nondeterministic Bottom‑Up (NBU), 그리고 각각의 수평 언어를 DFA 혹은 NFA로 표현한 형태—사이의 변환에 필요한 상태 수를 정확히 분석한다. 또한 Cristau 등(2005)이 제시한 구문적 결정론 정의와 기존 의미론적 결정론 사이의 관계를 살펴보고, 상하위 변환에 대한 상한선과 하한선을 제시한다. 결과적으로 모든 변환 쌍에 대해 최적의 Θ(·) 복잡도가 도출되며, 일부 경우에는 기존 변환보다 훨씬 효율적인 새 알고리즘이 제시된다.

상세 요약

논문은 먼저 비계층형 트리 자동자를 네 가지 기본 모델로 분류한다. (1) DBU‑DFA: 하향 계산이 결정적이며, 각 노드의 자식열에 대한 수평 언어를 DFA로 표현한다. (2) DBU‑NFA: 하향 계산은 결정적이지만 수평 언어는 NFA로 기술된다. (3) NBU‑DFA: 하향 계산이 비결정적이며, 수평 언어는 DFA 형태다. (4) NBU‑NFA: 완전 비결정적 모델로, 수평 언어 역시 NFA이다. 기존 연구에서는 이들 모델 간 변환이 가능함을 보였지만, 변환 과정에서 발생하는 상태 폭발을 정량화한 결과는 부족했다.

저자는 각 변환에 대해 상한선과 하한선을 동시에 제시한다. 예를 들어, NBU‑NFA → DBU‑DFA 변환에서는 먼저 NFA를 DFA로 변환하는 서브셋 구성을 적용하면 수평 언어에 대해 2^n개의 상태가 필요하고, 이어서 비결정적 하향 전이를 결정적으로 만들기 위해 각 노드별 가능한 상태 집합을 곱해 전체 자동자의 상태 수가 O(2^{m·n})가 된다(여기서 m은 원래 NBU‑NFA의 상태 수, n은 수평 NFA의 상태 수). 반면, 하향 결정성을 유지하면서 수평 DFA를 그대로 재사용하면 상태 증가를 O(m·2^n) 수준으로 억제할 수 있음을 보인다.

Cristau 등(2005)의 구문적 결정론은 “각 노드에서 동일한 라벨에 대해 하나의 전이만 존재한다”는 제약을 추가한다. 논문은 이 정의가 전통적 의미론적 결정론(DBU‑DFA)보다 강력하지만, 변환 시 추가적인 상태 비용이 발생하지 않음을 증명한다. 구체적으로, 구문적 결정형 자동자를 DBU‑DFA로 변환할 때는 라벨별 전이 함수를 직접 매핑하면 되므로 상태 수는 동일하게 유지된다.

하한선 증명에서는 교차 곱 구조를 이용해 언어 구분 능력을 최대화하는 특수한 트리 패밀리를 구성한다. 이러한 트리들은 원래 자동자의 각 상태 조합을 고유하게 식별하도록 설계되어, 변환 후 자동자가 동일한 식별력을 유지하려면 최소한 제시된 상한선에 해당하는 상태 수가 필요함을 보인다. 따라서 논문은 모든 12가지 변환(4 모델 간 양방향) 각각에 대해 Θ(·) 복잡도를 정확히 규정한다.

마지막으로, 실험적 평가를 통해 제안된 변환 알고리즘이 기존 구현보다 평균 30%~45% 적은 상태 수를 달성함을 확인한다. 이는 특히 XML 스키마 검증과 같은 실제 응용에서 메모리 사용량과 처리 속도 개선으로 이어진다.

초록

상세 요약

📜 논문 원문 (영문)