합성 텍스트의 은밀한 새: LLM 기반 데이터에서 개인정보 유출 감시
초록
본 논문은 LLM이 생성한 합성 텍스트가 원본 학습 데이터의 정보를 얼마나 누출하는지 조사한다. 모델 기반 멤버십 추론 공격(MIA)과 달리, 합성 데이터만을 이용한 데이터 기반 MIA를 설계하고, 기존의 고퍼플렉시티(높은 난이도) 카나리를 그대로 사용하면 감시 효율이 떨어짐을 확인한다. 대신, 도메인 내 프리픽스와 고퍼플렉시티 서픽스를 결합한 새로운 카나리 설계가 데이터 기반 MIA 성능을 크게 향상시킨다. 차등 프라이버시(DP‑SGD) 적용 시 공격 성능이 무작위 수준으로 감소함을 보이며, 제안 방법이 합성 텍스트 공개 위험을 정량화하는 실용적 도구임을 입증한다.
상세 분석
이 연구는 LLM을 미세조정(fine‑tune)한 뒤, 동일한 프롬프트 템플릿을 사용해 라벨이 지정된 합성 텍스트 코퍼스를 생성하는 파이프라인을 전제로 한다. 기존 프라이버시 감사는 모델에 대한 로그·출력 접근이 가능한 ‘모델 기반’ 멤버십 추론 공격에 초점을 맞추었으며, 여기서는 고유한 ‘카나리(canary)’ 문장을 학습 데이터에 삽입해 그 존재 여부를 탐지한다. 그러나 실제 서비스에서는 모델 자체가 공개되지 않고, 오직 합성 데이터만 배포되는 경우가 많다. 논문은 이러한 상황을 ‘데이터 기반’ 위협 모델로 정의하고, 두 가지 주요 신호 추출 방식을 제안한다. 첫째, 합성 데이터에 n‑gram 언어 모델을 학습시켜 카나리 문장의 확률을 계산한다. 카나리가 학습에 포함되면 해당 n‑gram이 빈번히 등장해 확률이 상승한다. 둘째, 임베딩 기반 코사인 유사도 혹은 Jaccard 유사도를 이용해 합성 텍스트와 카나리 간의 가장 유사한 k개 샘플의 평균 유사도를 멤버십 점수로 사용한다. 이 두 신호를 RMIA(쌍별 가능도 비율 검정) 프레임워크에 통합해 최종 멤버십 점수 β를 산출한다.
실험에서는 SST‑2, AG News, SNLI 세 데이터셋에 대해 LLM(예: GPT‑2 계열)을 미세조정하고, 다양한 카나리 설계와 반복 삽입 횟수(n_rep)를 변형했다. 데이터 기반 MIA는 AUC 0.74~0.77을 기록해 무작위(0.5) 대비 현저히 높은 탐지력을 보였다. 흥미롭게도, 모델 기반 공격에 최적화된 고퍼플렉시티 카나리는 합성 데이터에 거의 반영되지 않아 데이터 기반 공격에서는 오히려 성능이 저하된다. 이는 LLM이 고퍼플렉시티(즉, 분포 외) 토큰을 학습은 하지만, 프롬프트에 따라 생성되는 텍스트는 주로 도메인 내 토큰을 사용하기 때문이다.
이를 해결하기 위해 저자들은 ‘프리픽스‑서픽스’ 카나리 전략을 제안한다. 카나리의 앞부분(F 길이)은 도메인 내 일반적인 프롬프트와 일치하도록 설계하고, 뒤쪽은 고퍼플렉시티가 높은 토큰 시퀀스로 구성한다. 이렇게 하면 모델이 카나리를 기억하면서도, 프롬프트에 의해 생성되는 합성 텍스트에 해당 카나리의 흔적이 남는다. 실험 결과, F를 0<F<max 범위에서 조정한 경우, 완전 도메인 내 카나리(F=max)와 완전 도메인 외 카나리(F=0)보다 AUC가 평균 5~10% 상승했다.
또한 차등 프라이버시를 적용한 경우(DP‑SGD, ε=8)에는 데이터 기반 MIA의 AUC가 0.5에 수렴함을 확인했다. 이는 DP‑SGD가 모델의 메모리 효과를 크게 억제해, 합성 데이터에 카나리 흔적이 남지 않게 만든다. 따라서 제안된 감사 방법은 DP 보증 여부를 검증하는 보조 도구로 활용 가능하다.
전체적으로 이 논문은 (1) 합성 텍스트만으로도 강력한 멤버십 추론이 가능함을 입증하고, (2) 기존 고퍼플렉시티 카나리 설계가 데이터 기반 시나리오에 부적합함을 지적하며, (3) 프리픽스‑서픽스 혼합 카나리 설계가 데이터 기반 공격 효율을 크게 향상시킨다는 실용적 인사이트를 제공한다. 향후 연구는 더 복잡한 프롬프트 체인, 다중 라벨 조건, 그리고 대규모 LLM(예: GPT‑4)에서의 일반화 가능성을 탐색할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기