관계 학습을 위한 엔터티 수준 차등 프라이버시 보장 방법
초록
**
본 논문은 그래프와 같은 관계형 데이터에서 개별 엔터티(노드)의 프라이버시를 보호하기 위해, 엔터티 수준 차등 프라이버시를 만족하는 DP‑SGD 변형을 제안한다. 핵심은 (1) 엔터티가 여러 관계에 동시에 등장함에 따른 높은 민감도를 정량화하고, 등장 빈도에 따라 클리핑 임계값을 동적으로 조정하는 적응형 그래디언트 클리핑 기법을 도입한 점, (2) 다단계 샘플링 과정에서 발생하는 샘플 간 의존성을 ‘샘플 크기만으로 결합된’ 하위 클래스에 한정하여 프라이버시 증폭(privacy amplification) 이론을 확장한 점이다. 실험은 텍스트 속성 그래프에 사전학습된 텍스트 인코더를 미세조정하는 작업에 적용해, 기존 방법 대비 유용한 정확도‑프라이버시 트레이드오프를 확인하였다.
**
상세 분석
**
이 연구는 관계형 학습, 특히 그래프 기반의 엔터티 임베딩 학습에 DP‑SGD를 직접 적용할 때 발생하는 두 가지 근본적인 난관을 체계적으로 해결한다. 첫 번째 난관은 민감도(sensitivity) 문제이다. 전통적인 DP‑SGD는 각 샘플이 독립적이며 하나의 손실 항에만 기여한다고 가정한다. 그러나 그래프에서는 하나의 노드가 여러 양성(edge)와 다수의 음성(edge) 샘플에 동시에 등장한다. 논문은 이를 정량화하기 위해 미니배치 B를 세 부분 — 양성에 포함된 튜플 B⁺(u), 음성에만 포함된 튜플 B⁻(u), 그리고 해당 노드와 무관한 튜플 B⁰(u) — 로 분해하고, 각 부분에서 발생하는 그래디언트 노름을 합산해 로컬 민감도를 상한한다. 이때 고정된 클리핑 상수 C를 사용하면 최악의 경우 2·|B|·C 라는 비현실적인 상한이 나오므로, 적응형 클리핑이 필요하다. 저자는 노드의 등장 빈도 freq(v) 를 계산하고, 각 튜플 Tᵢ 에 대해 가장 빈번한 노드의 빈도에 비례해 클리핑 비율을 조정한다(FREQ‑CLIP 알고리즘). 이렇게 하면 노드가 많이 등장할수록 클리핑이 더 강하게 적용돼 전체 민감도가 실제 등장 횟수에 비례하도록 억제한다.
두 번째 난관은 연결된 샘플링(coupled sampling) 이다. 관계 학습에서는 양성 에지를 먼저 샘플링하고, 그 결과를 기반으로 음성 에지를 조건부 생성한다. 기존 프라이버시 증폭 이론은 독립적인 서브샘플링에만 적용 가능했으나, 저자는 샘플링 단계 간 의존성이 샘플 크기 제약에만 국한되는 경우를 정의하고, 이 하위 클래스에 대해 새로운 증폭 경계식을 증명한다. 즉, 첫 단계에서 선택된 양성 에지 수와 두 번째 단계에서 생성된 음성 에지 수가 서로 독립적이지만 전체 미니배치 크기는 고정된 상황을 가정한다. 이 가정 하에, 전체 메커니즘 M ∘ S 에 대한 (ε′, δ′) 값을 기존 RDP 합성 규칙보다 더 타이트하게 계산할 수 있다.
이 두 기술을 결합한 DP‑SGD‑Rel 알고리즘은 다음과 같은 흐름을 가진다. 1) 그래프에서 양성 에지를 Poisson 방식으로 샘플링하고, 2) 선택된 양성 에지에 기반해 음성 에지를 동일한 샘플 크기로 무작위 매칭한다(샘플 크기만으로 결합된 형태). 3) 각 튜플에 대해 FREQ‑CLIP을 적용해 그래디언트를 클리핑하고, 4) 클리핑된 그래디언트에 가우시안 노이즈를 추가한다. 이 과정 전체에 대해 논문은 RDP 기반의 프라이버시 회계와 앞서 제시한 증폭 경계식을 이용해 엔터티 수준 (ε, δ)-DP를 엄격히 증명한다.
실험에서는 텍스트 속성을 가진 노드와 관계가 존재하는 여러 공개 데이터셋(예: PubMed, DBLP 등)에 사전학습된 BERT 기반 텍스트 인코더를 미세조정한다. 비교 대상은 (i) 기존 DP‑SGD를 그대로 적용한 방법, (ii) 노드‑레벨 DP‑GNN 접근법, (iii) 비프라이버시 베이스라인이다. 결과는 동일한 ε 값에서 FREQ‑CLIP 기반 적응형 클리핑이 민감도 상한을 크게 낮추어, 정확도 손실을 최소화함을 보여준다. 특히 ε = 2 정도의 강한 프라이버시 설정에서도 5~7% 수준의 정확도 저하만을 보이며, 기존 방법 대비 유의미하게 우수한 성능을 기록한다.
이 논문의 주요 기여는 (1) 관계형 데이터의 특성을 반영한 민감도 분석, (2) 빈도 기반 적응형 클리핑, (3) 샘플 크기 결합을 전제로 한 새로운 프라이버시 증폭 이론, 그리고 (4) 이를 실제 모델 학습 파이프라인에 통합한 실용적인 DP‑SGD 변형이다. 이러한 기법은 그래프 기반 추천, 의료 네트워크 분석, 금융 거래 네트워크 등 엔터티 수준 프라이버시가 필수적인 도메인에 바로 적용 가능하다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기