프라이빗 토픽 모델링

본 논문은 “프라이빗 토픽 모델링”이라는 제목 아래, 라티스 디리클레 할당(Latent Dirichlet Allocation, LDA)과 같은 대규모 베이지안 토픽 모델에 차등 프라이버시(Differential Privacy, DP)를 적용하는 새로운 알고리즘을 제시한다. 기존의 변분 추론(Variational Inference, VI)은 데이터에 대한 반복적인 접근을 필요로 하며, 각 반복마다 프라이버시를 보장하기 위해 추가되는 잡음이 누적되어 유틸리티가 급격히 저하되는 문제가 있었다. 이를 해결하기 위해 저자들은 두 가지 핵심 기술을 결합한다. 첫 번째는 “Moments Accountant”(MA)라 불리는 개선된 프라이버시 합성 기법이다. MA는 각 메커니즘(여기서는 가우시안 잡음 추가 메커니즘)의 프라이버시 손실을 로그 모멘트 함수 α(λ)로 표현하고, 여러 메커니즘을 순차적으로 적용했을 때 전체 α는 개별 α들의 합으로 상한을 잡는다. 이 방식은 전통적인 강한 합성(Strong Composition)보다 훨씬 타이트한 (ε,δ) 경계를 제공한다. 특히, 가우시안 메커니즘의 경우 α(λ)=λ(λ+1)Δ²/(2σ²)라는 닫힌 형태를 이용해 손쉽게 계산할 수 있다. 두 번째는 “프라이버시 증폭”(privacy amplification)이다. 전체 데이터셋을 한 번에 처리하는 대신, 매 반복마다 ν=S/D 비율(미니배치 크기 S에 비례)만을 무작위로 샘플링한다. 독립적인 코인 플립 모델을 가정하면, 샘플링 자체가 프라이버시 손실을 ν배 감소시키는 효과가 있다. 따라서 동일한 ε를 달성하기 위해 필요한 잡음 표준편차 σ가 크게 감소한다. 알고리즘의 핵심은 기대 충분통계(expected sufficient statistics) \(\bar{s}\)에 직접 가우시안 잡음을 추가하는 것이다. LDA와 같은 CE(Conjugate‑Exponential) 모델에서는 변분 추론이 두 단계로 이루어진다. E‑step에서는 현재 파라미터(주제 분포 β)의 기대값을 이용해 문서‑주제 할당 z와 문서‑주제 비율 θ의 변분 분포를 계산하고, 이를 통해 \(\bar{s}\)를 얻는다. M‑step에서는 \(\bar{s}\)를 이용해 β의 변분 파라미터 λ를 업데이트한다. 따라서 \(\bar{s}\)에 잡음을 넣으면 E‑step과 M‑step 모두가 프라이버시 보호된 상태에서 진행된다. 민감도 분석에서는 \(\bar{s}\)가 K×V 행렬(K는 토픽 수, V는 어휘 크기)이며, 각 원소는 문서‑단어‑주제 할당에 따라 변한다. 최악의 경우 모든 단어가 동일한 주제·단어에 할당될 때 L1 민감도 \(\Delta_{\bar{s}} = N·S\) (N은 문서당 최대 단어 수) 로 상한을 잡는다. 그러나 실제 데이터에서는 행렬 노름이 훨씬 작다. 이를 활용해 “노름 클리핑” 전략을 도입한다. 행렬의 Frobenius 노름이 a·N·S (a∈(0,1]) 를 초과하면 \(\bar{s}\)를 비례적으로 축소한다. 클리핑 후 민감도는 a·Δ_{\bar{s}} 로 감소하고, 이에 맞춰 가우시안 잡음의 표준편차를 조정한다. 실험에서는 a=0.1을 사용했으며, 약 75%의 문서에 대해 클리핑이 적용되었다. 프라이버시 손실을 추적하기 위해 매 반복마다 로그 모멘트 함수를 업데이트한다. 가우시안 메커니즘에 대한 로그 모멘트는 위에서 언급한 식으로 계산되고, 샘플링 증폭을 반영하기 위해 혼합 밀도 β = (1−ν)·N(0,σ²/Δ²) + ν·N(1,σ²/Δ²) 를 사용한다. 이 혼합 밀도에 대한 로그 모멘트는 수치적으로 계산되며, λ에 대한 그리드 탐색을 통해 최적 ε와 δ를 도출한다. 실험은 위키피디아에서 무작위로 추출한 40만 개 문서(어휘 8천 개, 토픽 50개)를 대상으로 수행되었다. 각 실험은 한 에포크(전체 데이터에 대해 한 번의 순환)만 수행했으며, 미니배치 크기 S를 5 k, 10 k, 20 k 로, 잡음 표준편차 σ를 1.0, 1.1, 1.24, 1.5, 2.0 로 변동시켰다. 평가 지표는 퍼플렉시티(perplexity)이며, 이는 테스트 문서에 대한 예측 성능을 나타낸다. 결과는 ε‑퍼플렉시티 트레이드오프 곡선으로 제시되었으며, MA 기반 방법이 강한 합성 대비 동일 ε에서 퍼플렉시티를 평균 30~50% 낮추는 것을 확인했다. 특히 큰 미니배치(20 k)는 신호‑대‑노이즈 비율을 개선해 퍼플렉시티를 더욱 낮추었다. 논문의 주요 기여는 다음과 같다. 1) 변분 추론 과정 전체에 차등 프라이버시를 적용하는 실용적인 프레임워크 제시, 2) Moments Accountant와 샘플링 증폭을 결합해 기존 방법보다 훨씬 타이트한 프라이버시 경계 달성, 3) LDA와 같은 CE 모델에 특화된 민감도 클리핑 기법 도입, 4) 대규모 위키피디아 데이터에서 실험을 통해 유용성(퍼플렉시티)과 프라이버시(ε) 사이의 실질적인 트레이드오프 입증. 한계점으로는 현재 CE 모델에만 적용 가능하고, 장기 학습(다에포크) 시 프라이버시 손실 누적에 대한 추가 연구가 필요함을 언급한다. 전반적으로 이 연구는 대규모 베이지안 토픽 모델에 차등 프라이버시를 실용적으로 도입할 수 있는 중요한 발판을 제공한다.

프라이빗 토픽 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기