LLM 추론을 위한 오브퓨스드 의미 널스페이스 암호화 프레임워크 OSNIP
초록
OSNIP은 클라이언트 측에서 임베딩을 고차원 의미 널스페이스로 투사해 LLM 추론 시 개인정보를 보호하는 경량 암호화 기법이다. 의미 보존과 거의 직교성을 동시에 만족하도록 설계된 교란 벡터를 키‑종속 확률 매핑으로 생성해, 기존 HE·DP·MPC 방식보다 효율적으로 유틸리티‑프라이버시‑효율성 삼위일체를 깨뜨린다.
상세 분석
본 논문은 고차원 임베딩 공간에서 “오브퓨스드 의미 널스페이스(Obfuscated Semantic Null Space, OSNS)”라는 개념을 정량화하고, 이를 이용한 클라이언트‑사이드 암호화 메커니즘 OSNIP을 제안한다. 핵심 아이디어는 두 가지 제약을 동시에 만족하는 교란을 찾는 것이다. 첫째, 의미 보존: 원본 임베딩 h와 교란된 임베딩 z가 LLM의 downstream predictor fθ에 입력될 때 출력 분포가 KL‑다이버전스로 거의 동일하도록 한다. 이는 정의 2.2의 “Semantic Null Space”와 일치한다. 둘째, 기하학적 난독화: h와 z 사이의 코사인 유사도를 ε 이하로 제한해 거의 직교하도록 만든다(정의 2.3). 이 두 제약을 교차시킨 집합이 바로 정의 2.4의 “Obfuscated Semantic Null Space”이며, 정리 2.5와 코롤라리 2.6을 통해 고차원(d≫1)에서는 이 집합이 비어 있지 않으며, 그 부피가 전체 구면의 거의 전체를 차지함을 증명한다. 즉, 고차원이라는 ‘저주’를 오히려 ‘축복’으로 전환한다는 논리적 토대가 마련된다.
실제 구현에서는 경량 암호화 네트워크 Rϕ를 도입한다. 입력 임베딩 h와 사용자 비밀키 k를 함께 입력받아 z=Rϕ(h,k)를 출력한다. 학습 목표는
L_util = KL(fθ(h)‖fθ(z))와
L_priv = max(0, |cos(h,z)|−ε)
의 가중합을 최소화하는 것이다. λ 파라미터로 유틸리티와 프라이버시 사이의 트레이드오프를 조절한다. 키‑조건부 확률 매핑을 통해 동일 프롬프트라도 서로 다른 키에 대해 서로 다른 z를 생성하므로, 공격자는 단일 역변환 모델을 학습하기 어렵다. 또한 교란이 모델 내부에서 자동으로 “무시”되므로 서버 측 수정이나 복호화 과정이 전혀 필요하지 않다.
보안 모델은 서버를 반쯤 정직(semi‑honest)한 공격자로 가정한다. 서버는 모든 임베딩을 기록하고, 백색상자 접근을 통해 모델 파라미터와 어휘 매핑을 알지만, 클라이언트 키는 모른다. 논문은 K‑Nearest Neighbor 기반 복원 공격과 어휘 매칭 공격을 주요 위협으로 설정하고, 실험적으로 ASR(Attack Success Rate)을 크게 낮추는 것을 입증한다.
성능 평가에서는 12개의 생성·분류 벤치마크(예: LAMBADA, SST‑2, GLUE 등)에서 기존 HE, DP, MPC 기반 방법보다 유틸리티 손실이 12% 수준으로 낮으며, 프라이버시 지표(ASR)는 70% 이상 감소한다. 계산 비용 측면에서는 클라이언트 측 연산이 12 ms 수준에 머물고, 서버 측 부하가 전혀 증가하지 않는다. 이는 기존 암호화 기반 방법이 요구하는 수백 배 이상의 연산량과 메모리 오버헤드와 대비되는 큰 장점이다.
한계점으로는 (1) 키 관리와 키 교환 프로토콜이 별도 필요함, (2) 매우 낮은 ε(극단적 직교) 설정 시 유틸리티 손실이 급격히 증가할 수 있음, (3) 현재는 LLM의 임베딩 단계만 보호하고 텍스트 레벨의 메타데이터(예: 토큰 길이) 노출을 다루지 않는다. 향후 연구에서는 다중 키 계층, 동적 ε 조정, 그리고 토큰‑레벨 메타프라이버시까지 확장하는 방안을 제시한다.
전반적으로 OSNIP은 고차원 임베딩의 구조적 특성을 활용해 “프라이버시‑유틸리티‑효율성 삼위일체”를 실질적으로 깨뜨리는 새로운 패러다임을 제시한다. 이론적 존재 증명과 실험적 검증이 잘 결합돼, LLM‑as‑a‑Service 환경에서 실용적인 프라이버시 보호 솔루션으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기