언어모델 PII 누출을 증폭하는 보편적 활성화 방향 탐색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

UniLeak은 언어모델 내부 잔차 스트림에 존재하는 보편적 활성화 방향을 찾아, 해당 방향을 추론 시 선형으로 추가함으로써 다양한 프롬프트에서 개인식별정보(PII) 생성 확률을 크게 높이는 메커니즘을 제시한다. 모델 자체가 생성한 텍스트와 그라디언트 기반 최적화를 이용해 훈련 데이터나 실제 PII 라벨 없이도 방향을 학습하며, 조기 레이어에 삽입하면 PII 누출을 강화하고, 반대로 투사 억제하면 누출을 감소시킬 수 있음을 실험적으로 입증한다.

상세 분석

본 논문은 현대 대규모 언어모델이 내부에 기억하고 있는 개인식별정보(PII)를 어떻게 표현하고 조작할 수 있는지를 메카니즘 수준에서 탐구한다. 기존 연구는 주로 프롬프트 설계나 외부 공격을 통해 PII를 유출하는 방법에 초점을 맞추었지만, 내부 표현 공간에 존재하는 구조적 신호를 규명하지는 못했다. UniLeak은 이러한 공백을 메우기 위해 ‘보편적 활성화 방향(universal activation direction)’이라는 개념을 도입한다. 이는 모델의 잔차 스트림(residual stream) 내에서 특정 선형 방향을 의미하며, 이 방향을 추론 단계에 선형으로 더하면 다양한 입력 프롬프트에 대해 PII 토큰이 생성될 확률이 일관되게 상승한다.

핵심 방법론은 크게 두 단계로 구성된다. 첫 번째 단계에서는 모델 자체가 생성한 텍스트를 활용해 PII가 포함된 샘플을 자동으로 수집한다. 여기서는 BOS 샘플링과 기존 최적화 기반 프롬프트(E) 두 가지 전략을 사용해 200,000개의 생성문을 확보하고, 정규표현식 및 Flair NER을 통해 이메일, 전화번호, 이름 등 구조화·비구조화 PII를 라벨링한다. 두 번째 단계에서는 라벨링된 데이터셋을 이용해 각 레이어별 방향 벡터 vℓ를 그라디언트 기반 최적화로 학습한다. 손실 함수는 PII 토큰에 대한 로그우도(negative log‑likelihood)를 최소화하도록 설계되었으며, 이는 해당 레이어와 토큰 위치에 방향을 더했을 때 모델이 PII를 더 높은 확률로 출력하도록 유도한다.

특히 저자들은 토큰 위치 선택에서 전체 토큰보다 첫 입력 토큰에만 방향을 적용하는 것이 최적화 안정성과 효과면에서 우수함을 실험적으로 확인한다. 이는 PII가 희소하게 나타나는 특성상 초기 레이어에서의 작은 신호가 이후 레이어를 통해 증폭되기 때문으로 해석된다. 또한, 학습된 방향은 모델‑특정이면서도 프롬프트‑불변성을 보여, 동일 방향을 다양한 입력에 적용했을 때 PII 누출률이 일관되게 증가한다.

실험에서는 GPT‑Neo, LLaMA 등 여러 모델에 UniLeak을 적용했으며, 기존 프롬프트 기반 추출 기법에 비해 최대 13,399개의 추가 PII 레코드를 유출하는 성과를 보였다. 반대로, 학습된 방향을 잔차 스트림에서 빼는(투사 억제) 방법을 사용하면 PII 누출을 최대 3,562건 감소시키면서도 텍스트 품질(Perplexity, BLEU 등)에는 거의 영향을 주지 않았다. 메커니즘 분석에서는 초기 레이어에서의 개입이 출력 레이어의 PII 토큰 확률을 직접 상승시키는 과정을 시각화했으며, UniLeak이 만든 활성화는 훈련 데이터의 PII‑컨텍스트와 54% 높은 표현 유사성을 보임을 보고했다.

이러한 결과는 PII 누출이 단순히 특정 프롬프트에 의존하는 현상이 아니라, 모델 내부에 잠재된 ‘PII 신호’가 존재한다는 강력한 증거를 제공한다. 따라서 공격자는 이 신호를 최소한의 내부 변조만으로도 증폭시킬 수 있고, 방어 입장에서는 해당 신호를 탐지·제거함으로써 프라이버시 위험을 효과적으로 완화할 수 있다. 논문은 또한 임베딩 포이즈닝 공격을 통해 사전 훈련 단계에서 이러한 방향을 주입하는 가능성도 제시하며, 모델 배포 전 보안 검증의 필요성을 강조한다.

다만 현재 방법은 백색‑박스 접근(모델 파라미터 완전 접근)과 충분한 자체 생성 데이터가 전제되어 있어, 제한된 접근권을 가진 상황에서는 적용이 어려울 수 있다. 또한, PII 라벨링에 정규표현식과 NER에 의존함으로써 라벨링 오류가 방향 학습에 영향을 미칠 가능성도 존재한다. 향후 연구에서는 제한된 접근 환경에서도 보편적 방향을 추정하는 방법과, 비라벨 기반의 자기지도 학습을 통한 강화 방안을 모색할 여지가 있다.

언어모델 PII 누출을 증폭하는 보편적 활성화 방향 탐색

초록

상세 분석

댓글 및 학술 토론

의견 남기기