차등프라이버시 히스토그램 정확도 향상을 위한 일관성 기반 보정

본 논문은 차등프라이버시를 만족하면서 히스토그램 쿼리의 정확도를 크게 개선하는 방법을 제시한다. 먼저 적절한 쿼리 집합을 선택하고 라플라스 잡음을 추가해 개인 정보를 보호한다. 이후에 발생할 수 있는 일관성 위반을 사후 처리 단계에서 최소 거리 투영(제약 추론)으로 해결함으로써, 원래의 잡음이 감소된 듯한 효과를 얻는다. 이 기법은 그래프의 차수열 추정과 범위 쿼리를 지원하는 범용 히스토그램 두 가지 작업에 적용되었으며, 이론적 오류 상한과 실…

저자: Michael Hay, Vibhor Rastogi, Gerome Miklau

본 논문은 차등프라이버시(Differential Privacy, DP)를 적용한 히스토그램 쿼리의 정확도를 크게 향상시키는 새로운 방법론을 제시한다. 전통적인 DP 메커니즘은 각 쿼리에 라플라스(Laplace) 잡음을 독립적으로 추가함으로써 개인 정보를 보호한다. 그러나 여러 개의 쿼리를 동시에 발행하면 전체 쿼리 집합의 전역 민감도(Global Sensitivity)가 급격히 증가하고, 이에 따라 잡음 규모도 커져 정확도가 저하된다. 저자들은 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫 번째 아이디어는 **쿼리 집합 선택**이다. 분석 목적에 맞는 최소한의 쿼리 집합 Q를 설계한다. 예를 들어, 학생 성적 데이터에서 전체 학생 수, 합격자 수, 각 학점별 인원 수를 구하고자 할 때, 단순히 학점별 카운트만 요청하면 민감도는 1이지만, 전체와 합격자를 동시에 요청하면 민감도가 3이 된다. 이는 라플라스 잡음이 더 크게 들어가게 함으로써 개별 카운트는 정확하지만, 합산된 값은 오히려 부정확해지는 역설적인 상황을 만든다. 두 번째 아이디어는 **일관성 제약(Consistency Constraints) 기반 사후 보정**이다. 히스토그램 쿼리는 서로 선형 관계를 갖는다. 전체 학생 수 = 합격자 수 + 불합격자 수, 합격자 수 = A + B + C + D 등과 같은 제약은 데이터베이스와 무관하게 항상 성립한다. 라플라스 메커니즘으로 얻은 노이즈 응답 ˜q는 이러한 제약을 위배할 가능성이 높다. 저자들은 제약을 만족하면서 ˜q와 가장 가까운 q̂를 찾는 최적화 문제를 정의한다. 구체적으로는 \

차등프라이버시 히스토그램 정확도 향상을 위한 일관성 기반 보정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기