완전동형암호 기반 프라이버시 보호 합성 데이터 생성 프레임워크 FHAIM

완전동형암호 기반 프라이버시 보호 합성 데이터 생성 프레임워크 FHAIM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FHAIM은 완전동형암호(FHE)를 이용해 암호화된 표형 데이터를 직접 학습함으로써 입력 프라이버시와 차등 프라이버시(DP)를 동시에 보장하는 최초의 합성 데이터 생성 시스템이다. 기존 AIM 알고리즘을 FHE 환경에 맞게 변형하고, 마진 계산·쿼리 선택·노이즈 추가를 위한 새로운 FHE 프로토콜을 설계하였다. 실험 결과, 11~30분 수준의 실행 시간으로 원본 AIM과 거의 동일한 통계적 유틸리티와 다운스트림 머신러닝 성능을 유지한다.

상세 분석

본 논문은 데이터 보안과 프라이버시가 핵심 이슈인 의료·금융·교육 등 분야에서, 데이터 소유자가 원본 데이터를 전혀 노출하지 않고도 고품질 합성 데이터를 얻을 수 있는 방법을 제시한다. 핵심 아이디어는 차등 프라이버시를 보장하는 AIM(Aggregate‑Iterative‑Marginal) 알고리즘을 완전동형암호(특히 CKKS 스킴) 위에 구현하는 것이다. 이를 위해 저자들은 세 가지 핵심 FHE 프로토콜을 설계하였다.

1️⃣ πCOMP (Marginal Computation): k‑way 마진을 암호화된 형태로 직접 집계한다. 암호문 회전(HE.Rot)과 곱셈을 활용해 다항식 깊이를 k에만 의존하도록 설계했으며, 이는 기존 FHE 구현에서 흔히 발생하는 폭발적인 깊이 증가 문제를 회피한다.

2️⃣ πSELECT (Differentially Private Query Selection): 지수 메커니즘을 Gumbel‑Max 트릭으로 근사하고, 품질 점수 sₜ(w,D)를 L₂‑norm 기반으로 재정의해 절대값 근사에 필요한 고차 다항식 대신 제곱 L₂‑norm을 사용함으로써 암호문 내 연산을 단순화했다. 선택 과정에서 필요한 가우시안 노이즈는 암호화된 형태로 제공된 난수와 결합해 암호문 내부에서 직접 샘플링한다.

3️⃣ πMEASURE (Noisy Marginal Measurement): 마진 측정 단계에 가우시안 메커니즘을 적용한다. 민감도 1인 카운트에 대해 σ·N(0,1) 형태의 노이즈를 암호문에 더함으로써, 복호화 후에도 차등 프라이버시가 유지된다. 중요한 점은 서비스 제공자가 노이즈 샘플 자체를 볼 수 없으며, 이는 “DP‑in‑FHE”라는 새로운 보안 모델을 형성한다.

이러한 프로토콜을 조합하면, 데이터 소유자는 원본 데이터를 암호화하여 전송하고, 서비스 제공자는 암호문만으로 AIM의 select·measure 단계 전체를 수행한다. 최종 generate 단계는 이미 노이즈가 포함된 마진을 이용해 명시적인 그래프 모델을 구축하고, 암호문을 해제한 후 평문에서 샘플링을 진행한다. 따라서 서비스 제공자는 원본 데이터와도, 노이즈가 적용된 마진 자체와도 절대로 접촉하지 않는다.

실험에서는 세 개의 실제 표형 데이터셋(의료·금융·교육 분야)에서 11~30분의 실행 시간을 기록했으며, 원본 AIM과 비교했을 때 KL‑divergence, 평균 절대 오차, 그리고 합성 데이터를 이용한 분류·회귀 모델의 정확도 차이가 미미했다. 이는 CKKS 기반 근사 연산이 통계적 유틸리티에 큰 영향을 주지 않음을 시사한다. 또한, 암호문 깊이와 메모리 사용량이 마진 차수 k에만 선형적으로 증가함을 보였으며, 이는 대규모 고차원 데이터에도 확장 가능함을 의미한다.

본 연구는 (1) 단일 클라우드 제공자 환경에서 입력 프라이버시를 보장하는 최초의 FHE‑based SDG, (2) 차등 프라이버시와 동형암호를 결합한 “DP‑in‑FHE” 프레임워크, (3) 마진 기반 합성 데이터 생성에 필요한 고효율 암호문 메모리 레이아웃과 연산 최적화를 제공한다는 점에서 학술적·실용적 기여가 크다. 향후 연구는 비정형 데이터(이미지·시계열)와 다중 데이터 소유자 시나리오에 대한 확장, 그리고 보다 경량화된 FHE 스킴(BFV·BGV)과의 비교 분석을 통해 실시간 서비스 가능성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기