효율적이며 차등프라이버시를 보장하는 점 추정기
초록
본 논문은 파라메트릭 확률 모델에 대해 차등프라이버시(ε‑DP)를 만족하면서도 최대우도추정량(MLE)과 동일한 점근적 효율성을 갖는 새로운 추정기를 제안한다. 데이터셋을 여러 블록으로 나누고 각 블록에서 편향 보정된 MLE를 계산한 뒤 평균에 라플라스 잡음을 추가하는 “sample‑and‑aggregate” 방식을 사용한다. ε가 n⁻¹⁄⁶보다 느리게 0으로 수렴하면 추정기의 평균제곱오차는 Fisher 정보의 역수에 근접하며, 따라서 비편향·효율성을 동시에 달성한다.
상세 분석
이 논문은 차등프라이버시와 통계적 효율성 사이의 전통적인 트레이드오프를 깨뜨리는 중요한 결과를 제시한다. 먼저 차등프라이버시 정의를 재정리하고, 인접 데이터셋 간 출력 분포의 멀티플리케이티브 거리(d×)가 ε 이하가 되도록 요구한다. 기존 연구들은 주로 민감한 통계량에 라플라스 혹은 가우시안 잡음을 직접 추가하는 방식으로 정확도 손실을 감수했지만, 여기서는 “sample‑and‑aggregate” 기법을 활용한다. 입력 데이터를 k개의 블록으로 균등 분할하고, 각 블록에 대해 편향 보정된 MLE(ˆθ_bc)를 계산한다. 편향 보정은 기존 MLE의 1/n 수준 편향을 b₁(θ)/n 형태로 정확히 추정해 차감함으로써, 평균 제곱오차에 대한 1/n³⁄² 이하의 고차항을 제거한다. 이렇게 얻은 k개의 추정값을 평균(¯z)한 뒤, 라플라스(스케일 λ=Λ/(kε)) 잡음을 더해 최종 추정량 T*를 만든다.
프라이버시 증명은 각 블록의 추정값이 파라미터 공간의 직경 Λ 만큼만 변할 수 있음을 이용한다. 인접 데이터셋에서 영향을 받는 블록은 하나뿐이며, 따라서 평균 ¯z는 최대 Λ/k만 변한다. 라플라스 잡음의 밀도 비율은 exp(ε·k·Λ·|¯z−¯z’|) ≤ e^ε 로 제한되므로, T*는 ε‑DP를 만족한다.
효율성 분석에서는 각 블록의 MLE가 점근적으로 N(θ,1/(tI_f(θ)))에 수렴함을 이용한다(여기서 t=n/k). 블록 평균 ¯Z의 분산은 1/(k·tI_f)=1/(nI_f)와 동일하고, 편향은 O((k/n)³⁄²)이다. 따라서 k=o(n²⁄³)이면 편향이 무시할 수준으로 작아진다. 라플라스 잡음이 추가하는 분산은 Λ²/(k²ε²)이며, 이를 기존 분산보다 작게 만들기 위해 k≫√n·ε가 필요하다. 두 조건을 동시에 만족시키는 k≈⌈n³⁄⁵·Λ²⁄⁵·ε⁻²⁄⁵⌉를 선택하면, 전체 평균제곱오차는
J_T*(θ)= (1/n)
댓글 및 학술 토론
Loading comments...
의견 남기기