- Title: PrivacyBench A Conversational Benchmark for Evaluating Privacy in Personalized AI
- ArXiv ID: 2512.24848
- 발행일: 2025-12-31
- 저자: Srija Mukhopadhyay, Sathwik Reddy, Shruthi Muthukumar, Jisun An, Ponnurangam Kumaraguru
📝 초록
본 논문에서는 개인화된 AI 보조 도구의 개인정보 보호 문제를 다룬다. 특히, 대형 언어 모델(Large Language Models)을 기반으로 한 개인화 시스템에서 발생하는 정보 유출 위험에 초점을 맞춘다. 이를 위해 "PrivacyBench"라는 새로운 평가 프레임워크를 제안하고, 실제 상호작용에서 개인정보 보호의 중요성을 강조한다.
💡 논문 해설
1. **PrivacyBench**는 개인정보 보호를 체계적으로 평가하기 위한 첫 번째 벤치마크입니다. 이는 개인화된 AI 시스템이 실제 상황에서 어떻게 개인정보를 관리하는지 측정합니다.
2. 다중 턴 대화 평가 프레임워크는 단순한 질문에 대한 답변을 넘어, 실제 사용자와의 긴 상호작용 중에 발생할 수 있는 개인정보 유출 위험을 평가합니다.
3. 실험 결과, 기존 시스템에서는 15.80%에서 정보 유출이 발생했습니다. 그러나 간단한 프롬프트를 추가하면 이 위험을 크게 줄일 수 있음을 보여주었습니다.
📄 논문 발췌 (ArXiv Source)
10002978.10003029.10011150보안 및 프라이버시 프라이버시 보호50010002978.10003029.10011703보안 및 프라이버시 보안과 프라이버시의 사용성30010003120.10003121.10003126사람 중심 컴퓨팅 HCI 이론, 개념 및 모델100
인공 지능(AI)의 급속한 발전, 특히 대형 언어 모델(LLMs)은 초개인화로 이어지며 AI 보조 도구가 사용자의 전체 디지털 자취를 활용해 맞춤형 응답과 행동을 가능하게 했습니다. Pin AI나 Notion AI와 같은 에이전트는 사용자 온라인 환경에서 작업을 자동으로 수행하고 상호작용합니다. 이러한 에이전트를 일상 업무에 통합하면 사회적 생산성 개선과 개인의 권능 증진에 큰 잠재력이 있지만, 이로 인해 고도로 민감한 개인 정보에 접근하게 됩니다. 따라서 다음 세대의 책임 있는 웹 보조 도구는 이와 같은 개인화의 활용 가능성과 사용자의 프라이버시를 지키려는 윤리적 의무 사이에서 균형을 맞추는 것이 중앙적인 과제입니다.
개인화된 보조 도구의 배포는 표준 아키텍처 패러다임에 따라 이루어집니다. 이 설정에서는 LLM 기반 에이전트가 사용자의 진화하는 디지털 자취에 지속적으로 접근하며 주요 사용자를 지원합니다. 이러한 레파지토리에는 개인 채팅, 전문적인 이메일, 온라인 구매 내역 등이 포함됩니다. 이러한 데이터의 규모를 관리하기 위해 검색 강화 생성(RAG)이 구조적 기반이 됩니다. 이를 통해 모델 재교육의 비용 없이 역사적 맥락을 동적으로 검색할 수 있습니다. 그러나 이 설계는 사용자의 다양한 웹 활동을 단순한 통합 지식 베이스로 처리합니다. 이러한 데이터 스트림을 통일함으로써 시스템은 모든 정보를 동등하게 접근 가능하다고 간주하고, 원래 생성시 적용된 암묵적인 사회적 경계와 규범을 무시합니다.
이러한 사회적 맥락의 무시는 컨텍스트 인티그리티 이론의 핵심 원칙을 직접적으로 위반합니다. 이 이론은 정보 유입의 적절한 규범 준수를 통해 프라이버시를 정의합니다. 최근 연구는 LLM들이 이러한 경계를 적용하는 데 어려움이 있음을 강조하고 있지만, 여러 출처에서 데이터를 통합하는 개인화된 보조 도구에서는 위험이 크게 증가합니다. 공개 데이터와 사적인 고백을 구분할 수 없는 아키텍처는 신뢰하지 않은 대상에게 민감한 정보를 유출할 가능성을 높입니다. 이러한 침해는 사용자의 디지털 안녕에 심각한 위협이 됩니다.
이 윤리적 과제가 우리의 주요 연구 질문을 구체화합니다: 현재의 개인화된 보조 도구는 실제 다중 턴 상호작용 중에서 프라이버시 경계를 얼마나 잘 유지할 수 있을까요?
개인화 에이전트는 주로 동적인 다중 턴 컨텍스트에서 작동하지만, 기존의 안전성 평가에서는 정적이고 단일 턴 쿼리에 대한 평가에 비중을 두고 있습니다. 이 방법론적 격차는 중요합니다: 프라이버시를 유지하는 것은 점진적으로 맥락이 축적되는 유동적인 상호작용에서 표준 안전 필터를 우회할 수 있는 위험이 크기 때문에 훨씬 더 어렵습니다. 대화가 진행될수록, 검색 메커니즘이 사용자의 역사 데이터를 계속해서 끌어와서 대화의 연속성을 유지하는 과정에서 관련 맥락과 사적인 비밀 사이의 경계가 흐려집니다.
/>
사용자는 동료와 사임 계획을 개인적으로 논의하고, 나중에 AI 보조 도구에게 "미래 목표"에 대한 전문적인 이메일 작성을 맡깁니다. 시스템은 의미적 관련성 최적화를 위해 퇴직 채팅을 찾아서 비밀을 프로페셔널한 초안으로 통합합니다: “제 주된 관심사는 부드러운 전환 준비이며, 저는 다른 곳에서 새로운 역할을 수락했습니다.” 이러한 실패는 정적 벤치마크의 무능함을 보여주며 실제 다이내믹 대화에서 프라이버시를 유지하는 평가의 긴급한 필요성을 강조합니다.
그러나 효과적인 개인화는 유출 방지 이상의 것을 요구합니다. 에이전트는 또한 신뢰할 수 있는 사람과 적절한 정보 공유를 촉진해야 합니다. 이 두 가지 목표는 두 가지 다른 실패 모드 사이에 긴장을 만듭니다: 유출은 비밀을 비인가 당사자에게 공개하는 것이며, 과도한 보안성은 신뢰할 수 있는 대상에게 정보를 부당하게 숨기는 것입니다. 따라서 최종 목표는 총체적인 데이터 락다운이 아니라 컨텍스트 인티그리티의 유지입니다: 정보 유입이 사용자의 미묘한 사회적 규범에 정확히 맞추도록 하는 것.
이러한 도전을 해결하기 위해서는 새로운 평가 패러다임이 필요합니다. 이전의 LLM 개인화 작업, 예를 들어 LaMP, LongLaMP 및 PersonaBench는 주로 개인화된 텍스트 생성과 추천 등의 작업에 중점을 둔 반면, 이러한 벤치마크는 성능을 기준으로만 성공을 정의하므로 중요한 프라이버시 위험을 간과합니다. 특히 두 가지 필수 구성 요소가 부족합니다: (1) 유출이나 과도한 보안성과 같은 컨텍스트 인티그리티 실패를 측정하기 위한 기준 비밀, 그리고 (2) 실제 대화 중 프라이버시 침해를 포착하기 위한 다중 턴 상호작용.
이러한 간극을 메우기 위해 PrivacyBench라는 새로운 프레임워크를 도입합니다. 이 프레임워크는 실제 사회적 맥락에 내장된 기준 비밀을 포함하여 평가 벤치마크를 생성하도록 설계되었습니다. 이 프레임워크를 사용해 최신 5개 모델의 다중 턴 대화 평가를 수행했습니다. 우리의 결과는 중대한 취약점을 드러냅니다: 명시적인 보호 없이 개인화된 보조 도구는 15.80%의 대화에서 비밀을 유출했습니다. 또한 간단한 프라이버시 인식 시스템 프롬프트를 추가하면 이 위험을 크게 감소시키고 평균 유출률을 5.12%로 줄일 수 있다는 것을 확인했습니다.
PrivacyBench: 컨텍스트 인티그리티 실패와 같은 정보 유입 규범의 철저한 평가를 위한 첫 번째 벤치마크.
다중 턴 평가 프레임워크: 정적 쿼리를 넘어서 실제 사용자 상호작용 중에 프라이버시 침해와 에이전트 행동을 평가합니다.
통계 분석 및 완화책: 5개의 최신 모델에 대한 통계 연구를 통해 RAG 기반 시스템의 중대한 취약점을 드러내고 프롬프트 기반 방어는 재훈련 없이 유출을 크게 줄일 수 있음을 보여줍니다.
관련 작업
윤리적이고 개인화된 에이전트의 개발은 사용자 중심 데이터셋의 수집, AI 아키텍처에서의 프라이버시 강제 실행, 그리고 모델 안전성 평가의 세 가지 연결된 연구 기둥 위에 서 있습니다.
개인화 데이터셋
고품질 데이터셋은 개인화 분야의 발전을 위한 핵심입니다. 최근 벤치마크는 인터넷 스크래핑 또는 LLMs을 사용하여 대규모 사용자 문서를 생성함으로써 이 분야를 진보시켰습니다. 예를 들어 PersonaBench는 풍부한 사용자 프로필과 관련 문서를 중점적으로 다루며, LaMP 및 LongLaMP와 같은 데이터셋은 영화 추천과 같이 개인화된 하류 작업을 평가하는 데 사용됩니다. 대화 시스템 연구에서는 Multi-Session Chat(MSC)이 세션 간의 장기적인 인물 일관성을 모델링하려고 합니다. 그러나 이러한 벤치마크는 사용자 안전보다 개인화 활용에 중점을 두며, 프라이버시 평가를 위한 내장 기준 비밀이 부족하기 때문에 이 한계를 가집니다.
프라이버시 보호
프라이버시는 현대 웹 생태계에서 주요 관심사입니다. 컨텍스트 인티그리티(CI) 이론은 프라이버시가 단순한 비밀이 아니라 정보 유입의 맥락에 따른 규범 준수라는 것을 제안합니다. 최근 경험적 연구는 LLM들이 수신자의 역할에 따라 정보 유입을 조정하지 못함으로써 CI를 자주 위반한다는 것을 보여주었습니다. Li et al은 생성된 텍스트에서 이러한 침해를 감지하는 자동 체크리스트를 제안했습니다. 중요한 연구 방향 중 하나는 모델의 정적 학습 데이터로부터 암기와 노출을 보호하기 위한 기술적인 방어 수단입니다. 그러나 이러한 방어 수단은 모델 가중치에 내장된 정보만 다루며, RAG 기반 웹 에이전트에서 발생하는 구조적 위험에는 적용되지 않습니다. 또한 PII 마스킹과 같은 전통적인 추론 방어는 “비밀"이 표준 식별자 없이도 유출될 수 있기 때문에 실패합니다.
평가 지표
개인화 시스템의 평가는 일관성이나 안전성을 측정하기에 적합한 전통적인 점수를 넘어서 있어야 합니다. 최근 솔루션에는 사용자 프로필과 일치하는지 점수를 매기는 LLM 기반 평가자가 포함되어 있습니다. AI 안전의 더 넓은 풍경에서 SafetyBench와 Do Not Answer는 독소나 유해 콘텐츠 감지를 위한 표준을 설정했습니다. 현재 평가는 이러한 명시적인 해를 탐지하기 위해 정적 프롬프트에 의존하지만, 프라이버시 침해는 동적인 다중 턴 대화에서 발생하며 단일 턴 독소 쿼리보다 더 미묘하게 나타납니다. 그러므로 이러한 상호작용 시나리오에서 정보 유출을 정량화하기 위한 견고한 프레임워크는 중요한 다음 단계입니다.
이러한 연구 기반 위에, 우리는 이러한 연결된 도전 과제를 해결하기 위해 포괄적인 벤치마크를 도입합니다. 개인정보 보호에 중점을 둔 데이터셋과 다중 턴 평가 시스템을 제공하여 개인화 웹 에이전트에서 프라이버시 강제 실행을 측정하고 지원할 수 있습니다.
개인정보 중심의 데이터셋
/>
우리의 파이프라인은 시드 사용자를 생성한 다음 LLM을 사용하여 그 주변에 커뮤니티를 구축합니다. 그런 다음 두 단계 과정에서 첫 번째 단계에서는 견고한 프로필을 생성하고, 두 번째 단계에서는 실제 상호작용을 모방하는 문서를 생성하여 개인정보 보호 측면과 시간적 인식에 중점을 둔 개인화 생성 시스템을 벤치마킹합니다.
개인화된 AI 보조 도구에서의 프라이버시 평가를 위한 견고한 벤치마크는 인간 생활의 복잡성을 반영해야 합니다. 이를 위해 사용자의 상황, 관계, 개인 비밀이 시간에 따라 진화하는 시뮬레이션 커뮤니티의 디지털 자취를 생성하기 위한 파이프라인을 개발했습니다.
커뮤니티 시뮬레이션
파이프라인의 첫 번째 단계는 시뮬레이션 커뮤니티 구축입니다. 이 단계는 실제 사회적 기반이 제공하고 각 사용자의 디지털 자취를 가능한 상호작용에 근거하도록 합니다.
진화하는 소셜 그래프
우선 Persona Hub 데이터셋에서 유저 페르소나로 시작해 소셜 그래프를 구성합니다. 이 페르소나는 직업, 위치, 개인 관심사 등 다양한 특성을 자세히 설명하는 풍부한 사용자 프로필을 제공합니다. 이러한 프로필 기반으로 LLM이 초기 유저 사이의 가능성이 있는 관계를 추론하고 설립합니다. 그래프는 새로운 개인을 소개함으로써 확장되며, 각 새 사람마다 존재하는 멤버와 정의된 연결이 있습니다. 사용자들은 공통 직장이나 비슷한 취미 등 공유 특성에 따라 서로 다른 사회 그룹에 배치됩니다. 그래프의 중요한 특징 중 하나는 관계가 시간에 따라 변화한다는 것입니다.
동적인 유저 프로필
관계뿐만 아니라 각 프로필도 동적입니다. 이 프로필은 ‘직업’, ‘위치’, 또는 ‘관심사’와 같은 속성으로 풍부하게 구성됩니다. 자연스러운 생활 변화를 시뮬레이션하기 위해 각 속성에는 유효 기간이 지정됩니다.
디지털 자취 생성
파이프라인의 두 번째 단계는 각 사용자의 디지털 자취를 생성합니다. 이 자취는 개인화된 AI 시스템이 그 사용자에 대해 배우기 위해 활용하는 개인 데이터 코퍼스를 시뮬레이션합니다.