프라이버시 보호와 개인화 AI를 위한 사용자 주권 데이터 에이전트 Puda

프라이버시 보호와 개인화 AI를 위한 사용자 주권 데이터 에이전트 Puda
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Puda는 브라우저 기반으로 사용자의 웹 활동을 기록하고, 세 단계(상세 방문 기록, 추출 키워드, 사전 정의 카테고리)로 개인정보를 다중‑Granularity로 제공한다. 여행 계획 과제에서 사전 정의 카테고리만 제공해도 상세 기록 대비 97.2%의 개인화 성능을 유지함을 실험적으로 입증했다.

상세 분석

본 논문은 현재 대형 플랫폼이 사용자 데이터를 중앙집중화함으로써 발생하는 데이터 사일로와 사용자 주권 결여 문제를 지적한다. 특히 LLM 기반 에이전트가 고도화됨에 따라 다양한 개인 데이터를 실시간으로 요구하지만, 기존의 ‘공지‑동의’ 방식은 동적·다양한 프라이버시 요구를 충족시키지 못한다는 점을 강조한다. Puda는 이러한 한계를 극복하기 위해 세 가지 핵심 설계 원칙을 제시한다. 첫째, 브라우저 확장 프로그램 형태의 Content Recorder가 사용자의 URL, 페이지 타이틀, HTML 본문을 실시간으로 캡처한다. 둘째, Dataset Agent가 캡처된 원시 로그를 세 단계의 프라이버시 레벨로 변환한다. 상세 기록은 거의 원본에 가까워 높은 개인화 효용을 제공하지만 프라이버시 위험도도 크다. 추출 키워드는 LLM(Gemma‑3‑4B)으로 페이지별 요약과 키워드를 생성하고, 감성 라벨과 점수를 부여해 중간 수준의 위험을 제공한다. 셋째, Predefined Category Subsets는 사전에 정의된 1,072개의 카테고리(1‑3계층) 중 사용자의 관심사에 해당하는 항목만 선택하도록 설계돼, 민감 정보가 의도치 않게 노출될 가능성을 결정론적으로 차단한다. 이 단계는 LLM(GPT‑5 nano)을 이용해 상세 기록과 키워드에서 카테고리를 매핑한다. 또한, Access Control Agent는 OAuth2·OpenID Connect 기반 토큰 발급 흐름을 통해 외부 AI 에이전트가 데이터에 접근할 수 있는 범위를 엄격히 제한한다. 논문은 구현 시점에 인증 흐름을 설계 단계에 머물게 하여, 실제 서비스 적용 전 보안 검증이 필요함을 명시한다. 실험에서는 여행 계획 시나리오를 선택했으며, LLM‑as‑a‑Judge 프레임워크로 ‘맞춤도’, ‘실용성’, ‘창의성’ 세 기준을 평가했다. 결과는 사전 정의 카테고리만 제공했을 때도 상세 기록 대비 97.2%의 점수를 기록, 토큰 사용량과 응답 지연이 크게 감소함을 보여준다. 이는 프라이버시‑효용 트레이드오프를 실용적으로 완화할 수 있음을 시사한다. 또한, 시스템이 브라우저 중심이므로 모바일 앱이나 OS‑레벨 활동은 현재 범위에 포함되지 않아 향후 확장이 필요하다. 전체적으로 Puda는 사용자 주권을 기술적으로 구현하고, 다중‑Granularity 데이터 제공을 통해 프라이버시 위험을 정량화·제어하면서도 LLM 기반 개인화 서비스의 성능을 유지하는 실증적 근거를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기