API 경계에서 텍스트를 외계어로 변환해 프라이버시 보호

API 경계에서 텍스트를 외계어로 변환해 프라이버시 보호
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AlienLM은 토큰 어휘 전체에 대한 일대일 순열을 이용해 입력·출력을 “외계어”로 변환하고, API‑only 파인튜닝(AAT)으로 모델을 해당 언어에 맞게 적응시켜 블랙박스 LLM 사용 시 프롬프트·응답의 평문 노출을 크게 감소시킨다. 4가지 LLM과 7개 벤치마크에서 평균 81 % 이상의 오라클 성능을 유지하면서, 모델 가중치·코퍼스·학습 기반 복구 공격에 대해서는 0.22 % 이하의 토큰만 복원되는 것으로 입증하였다.

상세 분석

본 논문은 상용 LLM을 블랙박스 API 형태로 이용할 때 발생하는 “프롬프트·응답 평문 노출” 문제를 근본적으로 해결하고자 한다. 기존의 암호학적 안전 추론(FHE, MPC, TEE 등)이나 차등 프라이버시·연합학습은 모델 내부 접근을 전제로 하거나 추론 지연을 크게 증가시켜 실용성이 떨어진다. 이에 저자들은 텍스트 자체를 인간이 읽을 수 없도록 변환하면서도 모델이 그대로 학습·추론할 수 있는 “외계어(Alien Language)” 개념을 도입한다. 핵심 아이디어는 토큰 어휘 V에 대해 비특수 토큰 집합 I에 일대일 순열 f : I→I 를 적용하는 것이다. 이 순열은 (1) 표면 문자열 간 편집 거리(edit distance)를 최대화해 인간 가독성을 최소화하고, (2) 토큰 임베딩 간 코사인 유사도를 유지해 모델이 기존 의미를 학습할 수 있도록 설계한다.

순열 최적화는 목표 모델의 임베딩에 직접 접근할 수 없으므로, 공개된 프록시 모델의 임베딩 e_P를 사용한다. 편집 거리와 임베딩 유사도 사이의 가중치 µ를 조정해 “불투명성–학습가능성” 트레이드오프를 제어한다. 전역 최적화는 O(|I|²) 비용이 비현실적이므로, 저자들은 k‑NN 기반 후보 축소와 그리디 매칭을 결합한 휴리스틱을 제안한다. 이 과정은 128K 규모 어휘에 대해 20분 이내에 완료되며, 다양한 시드(seed)로 생성된 순열이 서로 크게 다르도록 설계해 키 재사용 위험을 낮춘다.

외계어 변환은 클라이언트 측 번역기(E, D)에서 수행된다. 입력 텍스트 x를 토크나이저 τ로 토큰화한 뒤, 순열 f를 적용하고 다시 문자열로 복원한다(E(x)=τ⁻¹∘f∘τ(x)). 역변환 D는 f⁻¹을 사용해 손실 없는 라운드트립을 보장한다. 외계화 비율 ρ∈


댓글 및 학술 토론

Loading comments...

의견 남기기