제로투텍스트 도메인 무관 텍스트 임베딩 역공격
초록
Zero2Text는 사전 학습된 대형 언어 모델과 온라인 릿지 회귀를 결합해, 사전 데이터나 도메인 별 정렬 없이도 임베딩만으로 원본 텍스트를 복원하는 무훈련(Zero‑Training) 공격 프레임워크이다. 제한된 API 쿼리만으로 반복적으로 생성‑검증 과정을 수행해 목표 임베딩에 점점 가까워지며, 기존 최적화 기반·정렬 기반 방법보다 크로스 도메인 상황에서 1.8배 높은 ROUGE‑L, 6.4배 높은 BLEU‑2 성능을 달성한다. 차등 프라이버시 등 기존 방어 기법도 효과를 크게 상실한다는 점을 실험으로 입증한다.
상세 분석
Zero2Text는 기존 텍스트 임베딩 역공격 패러다임을 근본적으로 재구성한다. 첫 번째로, 직접 역변환(Direct Inversion) 방식은 대규모(수백만) 임베딩‑텍스트 쌍을 수집해 디코더를 학습해야 하는 비현실적인 전제에 의존한다. 두 번째로, 임베더 정렬(Embedder Alignment) 방식은 일반 코퍼스로 사전 학습된 디코더와 소수(1–8천)개의 누출된 쌍을 이용해 victim 임베더와 정렬한다. 두 접근 모두 “도메인 일치”라는 가정을 전제로 하며, 실제 서비스에서는 임베딩이 다양한 산업·전문 분야에서 생성되기 때문에 도메인 이동에 취약하다.
Zero2Text는 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 사전 학습된 LLM(Qwen‑3‑0.6B, Llama 등)의 언어적 사전 지식을 활용해 텍스트 후보를 무작위가 아닌 의미적으로 풍부하게 생성한다. 후보 선택 시 토큰 간 코사인 유사도를 제한해 다양성을 보장하고, Beam Search를 통해 최상위 시퀀스를 유지한다. 둘째, “온라인 투사 최적화”라는 절차를 통해 현재까지 수집된 후보 임베딩과 실제 victim 임베딩 사이의 선형 매핑 행렬 Wₜ를 릿지 회귀로 실시간 업데이트한다. 이 과정은 초기에는 제한된 쿼리(Kₐ·γₜ)만을 사용해 victim 모델에 질의하고, 이후에는 업데이트된 Wₜ를 이용해 비질의 후보를 재투사함으로써 API 호출 수를 급격히 감소시킨다.
점수 함수 S(eᵢ, t) 는 LLM 로그잇과 정규화된 코사인 유사도를 가중합하고, 현재 Wₜ 의 신뢰도를 나타내는 confₜ 를 동적으로 적용한다. 초기 단계에서는 conf₁=0 이므로 언어 모델의 확률에 의존하고, 투사 정확도가 향상될수록 임베딩 유사도 가중치가 증가한다. 이 설계는 초기 과도한 임베딩 의존으로 인한 발산을 방지하고, 점진적으로 텍스트와 임베딩 사이의 정합성을 강화한다.
실험에서는 MS MARCO와 PubMed 두 벤치마크를 사용해 OpenAI text‑embedding‑ada‑002 모델을 victim으로 설정하였다. Zero2Text는 기존 최첨단인 Vec2Text 및 ALGEN에 비해 ROUGE‑L에서 1.8배, BLEU‑2에서 6.4배 향상된 점수를 기록했으며, 특히 도메인이 완전히 다른 PubMed 데이터에서도 높은 복원율을 유지했다. 방어 측면에서는 차등 프라이버시(ε=1)와 가우시안 노이즈(σ=0.1) 적용에도 Zero2Text의 성능 저하가 미미함을 보여, 현재 널리 채택되는 프라이버시 방어가 임베딩 역공격에 충분하지 않음을 강조한다.
이 논문은 “Zero‑Training”이라는 새로운 공격 패러다임을 제시함으로써, 임베딩 기반 검색·생성 시스템의 보안 위협을 재조명한다. 데이터·도메인 의존성을 없애고 온라인 최적화를 통해 제한된 쿼리만으로도 높은 복원 정확도를 달성한다는 점은, 향후 벡터 데이터베이스 설계와 프라이버시 보호 메커니즘에 중요한 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기