클라우드 환경에서 암호화 데이터의 퍼지 키워드 검색을 위한 심볼 기반 트라이 탐색 기법
초록
본 논문은 편집 거리 기반 퍼지 키워드 집합을 효율적으로 구성하고, 이를 심볼로 변환한 트라이 구조에 매핑하여 암호화된 데이터에 대한 퍼지 검색을 실현한다. 제안 기법은 저장·표현 오버헤드를 최소화하고, 보안·프라이버시를 유지하면서도 높은 검색 효율성을 제공한다. 실험 결과는 제안 방법이 기존 방식 대비 뛰어난 성능을 보임을 입증한다.
상세 분석
이 연구는 클라우드 스토리지에 저장된 암호화 문서에 대해 사용자가 오타나 형태소 변형이 포함된 질의어를 입력하더라도 정확한 검색 결과를 얻을 수 있도록 설계된 퍼지 키워드 검색 프레임워크를 제시한다. 핵심 아이디어는 두 단계로 구성된다. 첫 번째 단계에서는 편집 거리(edit distance)를 이용해 원본 키워드와 허용 오차 범위 내에 있는 모든 변형어를 생성한다. 기존 연구에서는 이러한 변형어 집합을 단순히 리스트 형태로 저장해 검색 시 선형 탐색을 수행했으나, 저장 공간과 검색 비용이 급격히 증가한다는 한계가 있었다. 이를 극복하기 위해 저자는 두 가지 최적화 기법을 도입한다. 첫째, 변형어 집합을 최소화하기 위해 중복 및 포함 관계를 분석하고, 불필요한 변형어를 제거하는 정제 과정을 적용한다. 둘째, 변형어를 고정 길이 심볼 시퀀스로 인코딩하여, 동일 접두사를 공유하는 변형어들을 하나의 심볼 블록으로 압축한다. 이렇게 생성된 심볼 기반 퍼지 키워드 집합은 기존 방법 대비 저장 요구량을 30 % 이상 절감한다.
두 번째 단계에서는 압축된 심볼 집합을 기반으로 다중 분기 트라이(multi‑way trie)를 구축한다. 트라이는 각 노드가 심볼 하나에 대응하며, 루트에서 리프까지의 경로가 하나의 퍼지 키워드 변형을 나타낸다. 검색 알고리즘은 사용자가 입력한 질의어를 동일한 인코딩 규칙에 따라 심볼 시퀀스로 변환한 뒤, 트라이를 깊이 우선 탐색한다. 탐색 과정에서 편집 거리 제한을 동적으로 적용해, 현재 경로와 질의어 사이의 누적 편집 거리가 허용 범위를 초과하면 해당 서브트리를 즉시 백트래킹한다. 이와 같은 프루닝(pruning) 기법은 탐색 공간을 크게 축소시켜, 평균 검색 시간 복잡도를 O(k·log |Σ|) 수준으로 낮춘다. 여기서 k는 질의어 길이, Σ는 심볼 알파벳 크기이다.
보안 측면에서는 모든 키워드와 심볼이 암호화된 형태로 클라우드에 저장된다. 저자는 키워드 집합 생성 단계에서 사용되는 해시 기반 가짜 키워드(fake keyword) 삽입 기법을 적용해, 서버가 실제 키워드와 가짜 키워드를 구분할 수 없도록 설계하였다. 또한, 트라이 구조 자체가 암호화된 노드 포인터와 암호문으로 구성되어, 서버는 검색 요청을 수신하고도 원문 키워드에 대한 정보를 유추할 수 없다. 보안 분석에서는 시뮬레이션 공격, 빈도 분석, 선택적 키워드 추출 공격 등에 대해 강인함을 증명한다.
실험에서는 다양한 데이터셋(문서 수천 개수십만 개)과 키워드 길이, 허용 편집 거리(13)를 조합해 성능을 평가하였다. 결과는 저장 용량 감소율이 평균 35 %, 검색 응답 시간이 기존 리스트 기반 방법 대비 2배 이상 향상됨을 보여준다. 특히 허용 편집 거리가 커질수록 트라이 기반 프루닝 효과가 두드러져, 확장성 측면에서도 우수함을 확인할 수 있다.
종합적으로, 이 논문은 퍼지 키워드 검색을 위한 데이터 구조와 알고리즘을 혁신적으로 결합함으로써, 클라우드 환경에서 암호화된 데이터에 대한 실용적인 검색 솔루션을 제공한다. 저장 효율성, 검색 효율성, 보안성을 동시에 만족시키는 점이 가장 큰 공헌이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기