프리픽스 기반 라벨링을 활용한 효율적 XML 파편화 기법

초록

본 논문은 XML 문서의 대규모 데이터를 효율적으로 저장·검색하기 위해 프리픽스 기반 라벨링과 번호 주소 체계를 결합한 파편화 기법을 제안한다. 수평·수직·하이브리드 파편화 연산을 정의하고, 라벨링을 통해 파편 간 관계와 위치 정보를 빠르게 추출한다. 실험 결과, 제안 방식이 기존 방법에 비해 파편 생성 시간과 조회 비용을 크게 감소시킴을 확인하였다.

상세 요약

XML은 계층적 구조와 자체 기술된 스키마 덕분에 데이터 교환 표준으로 자리 잡았지만, 웹 환경에서 데이터 양이 급증하면서 단일 노드에 저장된 대용량 XML을 직접 처리하는 비용이 비경제적이다. 이러한 문제를 해결하기 위해 물리적·가상적 파편화를 도입하고, 파편화 설계는 크게 두 축, 즉 ‘파편화 연산(수평, 수직, 하이브리드)’과 ‘파편화 방법(전통적, 라벨링 기반)’으로 구분된다. 기존 연구는 주로 XPath 기반의 경로 인덱스나 전통적인 파티셔닝 알고리즘에 의존했으며, 파편 간 연결 정보를 재구성할 때 높은 오버헤드가 발생했다.

본 논문은 이러한 한계를 극복하기 위해 ‘프리픽스 기반 라벨링’이라는 새로운 주소 체계를 도입한다. 각 XML 요소는 루트에서부터의 경로를 숫자 프리픽스로 표현하고, 이를 1‑2‑3… 형태의 순차 번호와 결합한다. 예를 들어, 아래 요소는 “1.2”와 같은 라벨을 갖고, 그 하위 는 “1.2.3” 형태가 된다. 이러한 라벨은 (1) 파편 식별을 위한 고유 키, (2) 부모‑자식 및 형제 관계를 정수 연산만으로 판단할 수 있는 메타데이터, (3) 파편 재조합 시 라벨 순서를 기준으로 원본 트리를 복원할 수 있는 근거를 제공한다.

수평 파편화에서는 동일 레벨의 라벨을 기준으로 일정 범위(예: 라벨 1‑1000)를 하나의 파편에 할당하고, 수직 파편화에서는 특정 서브트리 라벨(예: “1.2.”) 전체를 별도 파편으로 분리한다. 하이브리드 파편화는 두 기준을 복합 적용해, 예를 들어 “1‑500” 범위 내에서 “1.2.” 서브트리를 별도 파편으로 추출한다. 라벨링 덕분에 파편 경계가 명확히 정의되며, 파편 간 조인 연산은 라벨 비교만으로 수행돼 기존 XPath 기반 조인보다 훨씬 가볍다.

성능 평가에서는 TPC‑X와 실제 전자상거래 XML 데이터셋을 사용해 파편 생성 시간, 스토리지 오버헤드, 질의 응답 지연을 측정하였다. 결과는 라벨링 기반 파편화가 파편 생성 단계에서 평균 35% 시간 절감, 질의 응답 시 평균 42% 지연 감소를 보였으며, 스토리지 오버헤드는 기존 경로 인덱스 방식보다 20% 이하로 낮았다. 또한, 라벨링은 파편 재배치와 로드 밸런싱에도 유리해, 동적 클러스터 환경에서 파편 이동 비용을 최소화한다는 부가적인 장점을 확인하였다.

결론적으로, 프리픽스 기반 라벨링은 XML 파편화의 핵심 문제인 파편 식별·관계 유지·재조합을 단순한 정수 연산으로 추상화함으로써, 대규모 XML 데이터의 저장·검색 효율성을 크게 향상시킨다. 향후 연구에서는 라벨 압축 기법과 분산 트랜잭션 관리와의 연계, 그리고 비정형 XML(예: 혼합 스키마) 적용 가능성을 탐색할 예정이다.

초록

상세 요약

📜 논문 원문 (영문)