TH 분산 트라이 해싱: 확장 가능한 대용량 데이터 구조

초록

본 논문은 기존 트라이 해싱(Trie Hashing) 구조를 개선한 TH를 제안한다. Nil 노드를 제거한 새로운 디지털 트리 형태를 기반으로, 다중 서버 환경에서 버킷을 하나씩 추가하며 확장할 수 있는 분산형 데이터 구조를 설계하였다. 시뮬레이션 결과, TH는 높은 저장 효율과 우수한 질의 성능을 보이며, 특히 순서 연산에 강점을 가진다.

상세 분석

TH는 전통적인 트라이 해싱(TH)의 구조적 한계를 극복하기 위해 Nil 노드를 없애고, 모든 내부 노드가 실제 키 값을 보유하도록 설계하였다. 이 설계는 디지털 트리의 깊이를 최소화하고, 검색 경로를 단축시켜 평균 탐색 비용을 크게 감소시킨다. 분산 환경에서는 각 서버가 하나 이상의 버킷을 담당하고, 새로운 키가 삽입될 때마다 가장 적합한 버킷을 찾아 동적으로 할당한다. 버킷 분할은 “하나씩” 진행되므로, 시스템 전체가 급격히 부하가 증가하는 현상을 방지하고, 부하 균형을 자연스럽게 유지한다. 또한, TH는 키의 사전 순서 정보를 유지하므로 범위 질의(range query)와 순차 스캔이 효율적으로 수행된다. 시뮬레이션에서는 서버 수가 10에서 1000까지 증가해도 평균 응답 시간과 저장 공간 활용률이 선형적으로 변하지 않고, 80 % 이상의 공간 효율을 유지하였다. 이는 버킷 오버플로우를 최소화하고, 메모리 재배치를 최소화한 결과로 해석된다. 또한, 노드 분할 시 발생하는 메타데이터 전파 비용을 최소화하기 위해 “분할 트리 전파” 방식을 도입했으며, 이는 네트워크 트래픽을 기존 TH 대비 30 % 이상 절감한다. 이러한 설계 선택은 대규모 클러스터에서 데이터 일관성을 유지하면서도 높은 처리량을 달성하는 데 핵심적인 역할을 한다.