분석가를 위한 차등 프라이버시와 사적 균형 계산
초록
본 논문은 데이터베이스에 대한 다중 분석가들의 질의에 대해, 개인 데이터와 분석가 자체 모두를 보호하는 차등 프라이버시 메커니즘을 제안한다. 질의 응답을 두 플레이어의 영-합 게임으로 모델링하고, 사적 균형 계산을 통해 지수적인 수의 질의를 거의 최적의 오류율로 처리한다. 또한 비선형 질의까지 확장 가능하며, 분석가 간 협조나 다중 계정 등록에도 강인한 프라이버시를 제공한다.
상세 분석
이 연구는 기존 차등 프라이버시 연구가 주로 데이터 주체의 보호에 초점을 맞춘 반면, 분석가(질의자) 자체의 프라이버시를 간과했다는 점을 지적한다. 분석가 프라이버시란, 한 분석가가 제시한 질의 집합이 다른 분석가의 답변에 미치는 영향을 최소화하는 것을 의미한다. 이를 위해 저자들은 질의-응답 과정을 두 명의 가상 플레이어, 즉 “데이터베이스 소유자”와 “질의자” 사이의 영-합 게임으로 재구성한다. 데이터베이스 소유자는 개인 데이터에 대한 민감도를 유지하면서 가능한 한 정확한 답변을 제공하려 하고, 질의자는 자신의 질의가 다른 분석가에게 노출되지 않도록 최소한의 정보만을 얻으려 한다. 게임 이론적 관점에서 사적 균형(Private Equilibrium)을 찾는 것이 핵심이다. 저자들은 이 균형을 근사적으로 계산하기 위해 프라이버시 보존된 라그랑주 승강법과 미니맥스 최적화를 결합한 새로운 알고리즘을 설계한다.
알고리즘은 매 라운드마다 무작위화된 노이즈를 추가해 민감도 조절을 수행하고, 질의자들의 질의 집합을 압축하는 “쿼리 커버” 기법을 도입한다. 이 과정에서 사용되는 노이즈는 고전적인 라플라스 혹은 가우시안 메커니즘이 아니라, 게임의 가치 함수에 직접 삽입되는 형태로, 전체 시스템의 차등 프라이버시 파라미터(ε,δ)를 균등하게 분배한다. 결과적으로, 각 질의에 대한 오류는 기존 데이터 프라이버시 전용 메커니즘과 거의 동일한 수준을 유지하면서도, 질의 집합 자체에 대한 민감도는 ε-프라이버시 보장을 제공한다.
또한 논문은 비선형 질의, 예컨대 평균값의 제곱근이나 로그와 같은 변환을 포함하는 복합 질의에 대해서도 동일한 프레임워크를 적용할 수 있음을 증명한다. 이때는 질의 함수의 Lipschitz 상수를 이용해 민감도를 추정하고, 게임의 보상 함수에 적절히 반영한다. 중요한 점은, 분석가가 다중 계정을 만들어 협력하거나 악의적으로 질의를 조작하더라도, 전체 시스템은 여전히 (ε,δ)-차등 프라이버시를 만족한다는 것이다. 이는 기존 메커니즘이 분석가 간 독립성을 전제로 하는 것과는 근본적인 차별점이다.
실험 결과는 합성 데이터와 실제 공개 데이터셋에 대해 수행되었으며, 질의 수가 수천에서 수백만에 달해도 오류가 O(1/√n) 수준으로 수렴한다. 특히, 분석가 프라이버시를 고려하지 않은 최첨단 메커니즘과 비교했을 때, 오류 차이가 통계적으로 유의미하지 않음이 확인되었다. 이러한 결과는 사적 균형 계산이 차등 프라이버시를 유지하면서도 효율적인 질의 응답을 가능하게 함을 강력히 시사한다.