무제한 합성 데이터 공개에서도 지속되는 프라이버시 증폭
초록
본 논문은 선형 생성 모델에 대해 파라미터가 유한한 범위에 제한될 경우, 합성 데이터를 무한히 많이 공개하더라도 차등 프라이버시가 증폭되는 현상을 이론적으로 증명한다. 피셔 정보와 Rényi 발산 사이의 새로운 관계식을 도입해 기존 연구보다 비례 상수를 없애고, 파라미터 노름 제한이 없으면 증폭이 사라진다는 필요조건도 제시한다.
상세 분석
이 연구는 두 단계의 합성 데이터 생성 메커니즘을 수학적으로 정형화한다. 첫 단계에서는 차등 프라이버시를 만족하도록 가우시안 잡음이 추가된 파라미터 V와 W를 얻고, 두 번째 단계에서는 독립적인 가우시안 잠재 변수 Z를 이용해 합성 데이터 ZV와 ZW를 생성한다. 기존 연구(Pierquin et al., 2025)는 n_syn ≪ d인 비대칭 영역에서만 증폭을 보였으나, 본 논문은 파라미터 ‖v‖_F,‖w‖_F ≤ C 라는 유계 가정 하에 n_syn이 무한대로 커져도 Rényi 발산 D_α(ZV,ZW) ≤ η·D_α(V,W) (η < 1) 를 만족함을 증명한다. 핵심 기술은 다음과 같다.
-
피셔 정보와 Rényi 발산의 지역적 2차 전개: Proposition 3.1을 이용해 파라미터 변동 Δ에 대해 D_α(P_{θ+Δ},P_θ) ≈ (α/2)·I(θ)·Δ² 를 얻는다. 이는 파라미터 민감도가 작을 때 정확한 근사치를 제공한다.
-
전역적 비대칭 경계: Proposition 3.2에서는 Rényi 발산을 경로 적분 형태로 상한을 잡아, I(z)의 전역 상한만 알면 D_α(P_{θ′},P_θ) 를 로그 형태로 제어한다. 여기서 경로는 파라미터 공간의 선형 보간이며, ZV와 ZW 사이의 발산은 V와 W 사이의 발산보다 작다는 포스트‑프로세싱 불평등을 이용해 U(z,θ) = D_{2α‑1}(V,W) 로 설정한다.
-
무한 합성 데이터와 Gram 행렬의 동등성: Proposition 4.1·4.2는 n_syn → ∞ 일 때 D_α(ZV,ZW) 가 VᵀV와 WᵀW 의 Rényi 발산과 동일함을 보인다. 즉, 무한히 많은 합성 레코드를 공개하는 것은 파라미터의 Gram 행렬을 공개하는 것과 동등한 프라이버시 손실을 가진다.
-
유계 파라미터가 증폭을 가능하게 함: 파라미터 노름이 C 로 제한되면 VᵀV와 WᵀW 사이의 차이는 ‖v‑w‖_F² ≤ Δ² 로 제한되고, 피셔 정보 I(z) ≤ C²·d/k 와 같은 상한을 얻는다. 이를 통해 최종 상한 D_α(ZV,ZW) ≤ C²·d/k + C²·D_α(V,W) 를 도출한다. 반면 파라미터가 무제한이면 Proposition 4.3에 의해 증폭이 사라지고, 최악의 경우 포스트‑프로세싱 경계와 동일해진다.
-
실험적 검증: 저자는 다양한 (d, k, C, Δ) 설정에 대해 Rényi DP 값을 직접 추정하고, 이론적 상한과의 차이를 시각화한다. 결과는 n_syn 가 10³~10⁴ 수준에서도 무한극한값에 급속히 수렴함을 보여, 실제 적용에서도 무제한에 가까운 합성 데이터가 프라이버시 증폭을 유지한다는 실용적 의미를 제공한다.
이러한 분석은 기존의 “합성 데이터가 적을수록 프라이버시가 좋다”는 직관을 정량적으로 확장하고, 파라미터 유계라는 현실적인 전제 하에 무제한 데이터 공개가 가능함을 증명한다. 또한 피셔 정보를 활용한 Rényi 발산 상한 기법은 비선형·비가우시안 생성 모델에도 적용 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기