학습 기반 차등 프라이버시 데이터 공개

본 논문은 차등 프라이버시를 만족하면서도 다항식 혹은 준다항식 시간에 통계 질의를 근사적으로 답변할 수 있는 새로운 데이터 공개 프레임워크를 제시한다. 핵심은 “임계값을 가진 합(predicates) 학습” 문제로 데이터 공개를 환원하고, 이를 기존 학습 알고리즘(다항식 임계값 함수와 Harmonic Sieve 등)으로 해결함으로써 k‑way conjunction 및 대부분의 parity 질의에 대해 효율적인 알고리즘을 얻는 것이다.

저자: Moritz Hardt, Guy N. Rothblum, Rocco A. Servedio

본 논문은 차등 프라이버시를 만족하면서도 고차원 데이터베이스에 대한 복잡한 통계 질의를 효율적으로 공개하는 새로운 방법론을 제시한다. 연구 배경은 기존 차등 프라이버시 데이터 공개 알고리즘이 데이터 차원(d)에 대해 지수적 혹은 준지수적 실행 시간을 요구하거나, 충분히 큰 데이터베이스가 필요하다는 점이다. 저자들은 이러한 한계를 극복하기 위해 데이터 공개 문제를 “임계값을 가진 합(predicates) 학습” 문제로 환원하는 일반적인 프레임워크를 고안한다. 1. **문제 정의와 환원** - 데이터베이스 D는 n개의 레코드 u∈U 로 구성되며, 각 질의 q∈Q는 이진 프레디케이트 P(q,u) 로 정의된다. 질의에 대한 정확한 답은 f_D(q)= (1/n)∑_{u∈D} P(q,u) 이다. - 저자들은 f_D를 n개의 기본 프레디케이트 p_u(q)=P(q,u) 의 합으로 표현하고, 임계값 t 를 두어 0/1 라벨링하는 함수 f_D^t(q)=1

학습 기반 차등 프라이버시 데이터 공개

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기