텍스트 임베딩 역전공격 방어를 위한 개념 인식 프라이버시 메커니즘

텍스트 임베딩 역전공격 방어를 위한 개념 인식 프라이버시 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트 임베딩에서 민감 정보를 선택적으로 보호하기 위해 SPARSE라는 프레임워크를 제안한다. 사용자가 정의한 프라이버시 개념에 대해 차별화된 차원 민감도를 학습하고, 이를 기반으로 Mahalanobis 노이즈를 삽입해 타원형(비등방) 잡음을 적용한다. 기존의 구형(동등방) 노이즈와 달리 민감 차원에만 강하게 교란을 가함으로써 프라이버시 유출을 크게 감소시키면서도 다운스트림 태스크 성능을 유지한다. 6개 데이터셋·3개 임베딩 모델·다양한 공격 시나리오에서 최첨단 DP 방어보다 우수한 결과를 보인다.

상세 분석

SPARSE는 두 가지 핵심 모듈로 구성된다. 첫 번째는 차원 민감도 추정을 위한 미분 가능한 마스크 학습이다. 논문은 프라이버시 개념 C(예: 이름, 질병 등)를 포함하는 문장 집합 D⁺와 해당 개념을 제거한 부정 예시 D⁻를 만든 뒤, 임베딩 Φ(s)와 마스크 m∈


댓글 및 학술 토론

Loading comments...

의견 남기기