연합 프롬프트 튜닝의 소프트 프롬프트를 이용한 회원추론 공격
초록
본 논문은 연합 프롬프트 튜닝(FPT) 환경에서 악의적인 서버가 조작한 소프트 프롬프트를 삽입·관찰함으로써 클라이언트 데이터에 특정 샘플이 포함됐는지를 고정밀도로 추론하는 회원추론 공격인 PromptMIA를 제안한다. 공격의 성공률을 보안 게임으로 정량화하고, 이론적 하한을 도출해 높은 어드밴티지를 설명한다. 또한 기존 그라디언트·출력 기반 방어가 PromptMIA에 취약함을 실험적으로 입증하며, 프롬프트 튜닝 전용 방어 연구의 필요성을 강조한다.
상세 분석
PromptMIA는 연합 학습에서 사전학습된 대형 모델을 고정하고 입력 앞에 학습 가능한 소프트 프롬프트(키‑프롬프트 쌍)만을 업데이트하는 연합 프롬프트 튜닝(FPT)의 특성을 악용한다. 공격자는 서버 측에서 목표 샘플 T에 대한 쿼리 q(T)를 계산하고, 이와 높은 코사인 유사도를 갖는 N개의 adversarial key k_adv를 생성한다. 이때 각 k_adv는 서로 일정 범위 Δ만큼 차이를 두어 동일 벡터로 수렴하는 것을 방지하고, 모든 benign key보다 높은 유사도를 보장하도록 δ_min을 설정한다. 이렇게 만든 (K_adv, P_adv) 쌍을 전역 프롬프트 풀에 삽입하면, 클라이언트가 로컬 학습 시 T가 존재할 경우 top‑N 선택 메커니즘이 반드시 이 adversarial 프롬프트들을 선택한다. 선택된 프롬프트는 로컬 업데이트를 거쳐 서버에 반환되며, 서버는 “프롬프트가 업데이트되었다”는 신호만으로 T의 존재 여부를 판단한다.
이 과정은 기존 MIAs가 필요로 하는 클라이언트의 그라디언트, 모델 파라미터, 혹은 별도 섀도우 모델 학습을 전혀 요구하지 않는다. 단일 통신 라운드 내에서 멤버십을 추론할 수 있기 때문에 통신 비용과 공격 복잡도가 크게 감소한다. 이론적으로는 TPR = 1을 보장한다. 논문은 정리 3.1을 통해, adversarial key가 benign key보다 항상 높은 유사도를 갖도록 설계되면, 목표 샘플이 포함된 경우 선택된 키 집합이 정확히 K_adv가 됨을 증명한다. FPR은 adversarial key가 우연히 다른 비목표 샘플의 쿼리와 높은 유사도를 가질 확률에 의해 결정되며, δ_min과 Δ를 적절히 조정하면 실험적으로 낮은 수준으로 억제된다.
실험에서는 CIFAR‑10/100, TinyImageNet, MNIST‑M, Fashion‑MNIST, CINIC‑10, MMAFEDB 등 7개 데이터셋과 ViT‑B/32, DeiT‑B/16, ConvViT 등 3가지 비전 트랜스포머 아키텍처에 대해 평가하였다. 모든 설정에서 공격 성공률(ASR)이 90 % 이상으로, 특히 대규모 데이터셋에서 거의 완벽에 가까운 어드밴티지를 기록했다.
방어 측면에서는 (1) 이상치 탐지 기반 프롬프트 필터링, (2) 입력에 노이즈를 추가하는 DP‑like 방어, (3) 그라디언트 난독화, (4) 프롬프트 선택/집계 프로토콜 수정 등을 적용했지만, 대부분의 경우 공격 성공률을 크게 낮추지 못했다. 특히 PromptMIA는 프롬프트 자체의 내용이 아니라 선택·업데이트 여부에 의존하므로, 그라디언트 난독화와 같은 기존 방어가 무력화된다. 이는 프롬프트 튜닝 특유의 “키‑프롬프트 매칭” 메커니즘이 새로운 공격 표면을 제공한다는 점을 시사한다.
결론적으로, 연합 프롬프트 튜닝은 효율성 면에서 장점을 제공하지만, 소프트 프롬프트의 선택·집계 과정이 노출될 경우 심각한 회원추론 위협에 노출된다. 따라서 프롬프트 수준에서의 차등 프라이버시, 키‑프롬프트 무작위화, 선택 과정에 대한 암호학적 보증 등 새로운 방어 전략이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기