암호화된 데이터의 전역 휴리스틱 검색
초록
GHSED는 공개키 암호화된 문서를 비신뢰 서버에 저장하면서도, 사용자는 원문을 알지 못한 채 특정 키워드가 포함된 문서를 효율적으로 검색할 수 있게 하는 기법이다. 이 방법은 검색 과정에서 서버가 평문이나 검색어를 노출하지 않으며, 검색 권한 제어와 쿼리 은닉, 결과 격리 등 네 가지 보안 목표를 만족한다.
상세 분석
GHSED( Global Heuristic Search on Encrypted Data )는 기존의 검색 가능한 암호화(SSE) 모델을 확장하여 “전역 히스토그램” 기반 인덱스를 도입한다는 점에서 차별성을 가진다. 각 문서는 공개키 암호화된 본문과 함께, 문서 전체에 등장하는 단어들의 빈도와 위치 정보를 압축한 히스토그램을 해시와 함께 서버에 업로드한다. 이 히스토그램은 “전역 히스토그램 트리”(Global Heuristic Tree, GHT)라는 구조에 병합되어, 모든 문서에 대한 단어 분포를 전역적으로 관리한다. 사용자는 검색 토큰을 생성할 때 개인 비밀키와 검색어를 입력해, 검색어에 대응하는 해시값과 함께 “검색 히스토그램”을 만든다. 서버는 이 토큰을 받아 GHT와 비교함으로써, 해당 단어가 포함된 문서들의 식별자를 빠르게 추출한다. 중요한 점은 서버가 실제 단어 자체를 알 수 없으며, 히스토그램 비교는 암호화된 형태로 수행된다는 것이다.
보안 측면에서 GHSED는 네 가지 핵심 속성을 명시한다. 첫째, Provably Secure: 암호문만으로는 평문을 복원할 수 없으며, 보안 증명은 표준 IND‑CPA 모델을 기반으로 한다. 둘째, Controlled Searching: 검색 토큰은 사용자의 개인키에 의해 서명되므로, 서버는 인증되지 않은 검색 요청을 거부한다. 셋째, Hidden Queries: 검색어는 토큰 내부에 암호화되어 전송되므로, 서버는 어떤 단어가 검색되는지 알 수 없다. 넷째, Query Isolation: 서버는 검색 결과(문서 식별자) 외에 추가적인 메타데이터를 얻지 못한다.
성능 분석에서는 GHT의 트리 구조가 로그 시간 복잡도를 제공함을 보이며, 기존의 인덱스 기반 SSE(예: Inverted Index) 대비 인덱스 업데이트 비용이 낮다. 특히, 새로운 문서가 추가될 때 전체 인덱스를 재구성할 필요 없이 해당 문서의 히스토그램만을 GHT에 삽입하면 된다. 그러나 히스토그램 자체가 단어 빈도 정보를 포함하기 때문에, 빈번히 등장하는 일반 단어(Stop‑word)의 경우 히스토그램 크기가 급증할 위험이 있다. 이를 완화하기 위해 논문에서는 “빈도 임계값 필터링”과 “해시 기반 압축”을 제안한다.
또한, GHSED는 키워드 검색에 국한되지 않고, 범위 검색이나 정규식 기반 검색을 확장하기 위한 잠재적 방향을 제시한다. 예를 들어, 히스토그램에 단어의 사전적 순서를 포함시키면 사전식 범위 검색이 가능해진다. 하지만 현재 설계는 정확히 일치하는 단어 검색에 최적화되어 있어, 다중 키워드 조합(AND/OR)이나 근사 검색은 추가 프로토콜이 필요하다.
실험 결과는 클라우드 환경(AWS EC2)에서 10 GB 규모의 암호화 문서 집합을 대상으로 수행되었으며, 평균 검색 지연시간은 150 ms 이하, 인덱스 구축 시간은 전체 데이터의 2 % 수준에 머물렀다. 이는 기존 SSE 솔루션 대비 30 % 정도의 속도 향상을 의미한다. 다만, 히스토그램 압축률이 낮은 경우 메모리 사용량이 급증할 수 있어, 서버 자원 관리가 중요한 과제로 남는다.
종합하면 GHSED는 보안성, 효율성, 확장성을 동시에 추구하는 실용적인 검색 가능한 암호화 프레임워크이며, 특히 비신뢰 서버에 대량의 암호화 문서를 저장하고자 하는 기업·기관에 적합한 솔루션으로 평가될 수 있다. 향후 연구에서는 히스토그램 기반 인덱스의 동적 재조정, 다중 키워드 복합 검색, 그리고 양자 내성 암호와의 연계가 주요 과제로 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기