프라이버시 보호를 위한 실시간 집계 시스템 Mayfly
초록
Mayfly는 사용자 디바이스에서 발생하는 일시적인 데이터 스트림을 중앙에 저장하지 않고, SQL 기반 프로그래머블 쿼리와 스트리밍 차등 개인정보 보호(DP)를 결합해 집계 결과만을 안전하게 제공하는 연합 분석 프레임워크이다. 위치 기반 교통 데이터에 적용해 5억 명 이상의 디바이스에서 주당 ε=2의 DP 보장을 얻으며 4백만 개 이상의 통계치를 정확히 산출하였다.
상세 분석
Mayfly는 세 가지 핵심 설계 원칙을 통해 대규모 연합 분석에서 프라이버시와 유용성을 동시에 달성한다. 첫째, 디바이스 측 데이터 최소화를 위해 SQL 서브쿼리를 디바이스에 배포하고, 사용자는 필요한 레코드만 선택·요약한다. 이 과정에서 윈도우 기반의 기여 제한(contribution bounding)과 활동별 스케일링(norm) 기법을 적용해 각 디바이스가 전송하는 데이터 양을 크게 줄인다. 둘째, 즉시(ephemeral) 집계를 구현한다. 서버는 디바이스로부터 전송된 요약값을 메모리 내에서만 집계하고, 집계가 끝나면 중간 결과를 영구 저장하지 않는다. 이는 데이터 보관 기간을 최소화하고, 내부 관리자나 침입자에 의한 데이터 유출 위험을 크게 낮춘다. 셋째, 스트리밍 차등 개인정보 보호 메커니즘을 도입한다. 기존 중앙 DP 방식은 전체 기여를 한 번에 클리핑하고 노이즈를 추가하지만, Mayfly는 활동별(예: 도보, 자전거, 비행) 스케일링 후 단일 클리핑 경계를 적용한다. 이렇게 하면 고변동성(예: 장거리 비행)과 저변동성(예: 근거리 도보) 데이터가 동일한 민감도에 맞춰 조정돼, 전체 민감도(ℓ1 노름)가 크게 감소한다. 그 후 서버 측에서 재스케일링, 가우시안 노이즈 추가, 그리고 과도한 노이즈가 포함된 결과를 필터링하는 포스트프로세싱(threshold) 단계를 거친다.
핵심 기술적 기여는 Group‑By‑Sum 전용 DP 메커니즘이다. 위치 데이터는 거리·시간 같은 연속형 값이 큰 범위에 걸쳐 분포하므로, 기존의 단순 클리핑·노이즈 방식은 ε>16이라는 비현실적인 프라이버시 비용을 초래한다. Mayfly는 각 활동 유형별 평균·분산을 사전 학습해 스케일링 팩터를 도출하고, 이를 이용해 기여를 정규화한다. 정규화된 값에 대해 전체 디바이스에 동일한 클리핑 한계를 적용하면, 민감도가 크게 낮아져 ε=2(주당)라는 강력한 프라이버시 보장을 유지하면서도 3% 이하의 상대 오차를 달성한다.
시스템 구현 측면에서는 기존 연합 학습 인프라(Federated Learning)와 호환되도록 설계했으며, 두 사람 제어(two‑person control)와 TEEs 기반 메모리 암호화를 통해 운영자 권한 남용을 방지한다. 디바이스 참여율을 높이기 위해 작업 할당 시 사전 적합성 검사를 포함하고, 네트워크·전력 제약을 고려해 하루에 한 번 정도만 체크인하도록 조정했다. 이러한 최적화 덕분에 초기 49%였던 디바이스 도달률을 93%까지 끌어올렸다.
전체적인 평가에서는 5억 명 이상의 사용자·주당 4백만 개 이상의 통계치를 생성했으며, 각 통계는 ε=2, δ≈10⁻⁵ 수준의 중앙 DP를 만족한다. 실험 결과는 기존 베이스라인(예: 단순 클리핑·노이즈) 대비 8배 이상의 프라이버시 예산 절감과, 동일 노이즈 수준에서 평균 상대 오차가 30% 이하로 감소함을 보여준다. Mayfly는 교통·환경 데이터 외에도 헬스케어, 스마트 홈 등 다양한 고차원 연합 분석 시나리오에 적용 가능함을 논의한다.
댓글 및 학술 토론
Loading comments...
의견 남기기