합성 데이터 프라이버시 위험 측정: 실용적 지표와 R 패키지 구현
초록
본 논문은 R 패키지 synthpop에 새롭게 추가된 disclosure와 multi.disclosure 함수를 통해 합성 데이터의 신원 및 속성 공개 위험을 정량화하는 두 가지 핵심 지표, **RepU(복제 유일값)**와 DiSCO(합성에서 올바른 원본 속성) 를 제시한다. 각 지표는 원본 레코드 대비 백분율로 표현되며, 원본 데이터와 비교해 위험 감소 정도를 직관적으로 확인할 수 있다.
상세 분석
논문은 먼저 합성 데이터(SD)의 프라이버시 위험을 평가하기 위한 두 차원의 개념을 정의한다. **신원 공개(identity disclosure)**는 알려진 키(준식별자) 집합을 이용해 특정 개인을 식별할 수 있는 가능성을 의미하고, **속성 공개(attribute disclosure)**는 키를 통해 원본에 존재하지 않았던 새로운 속성 값을 추론할 수 있는 가능성을 의미한다. 기존 연구에서 제시된 k‑익명성 개념을 확장해, 원본 데이터에서 키 조합이 유일한 레코드 비율을 UiO(Unique in Original)라 하고, 이러한 레코드가 합성 데이터에서도 동일하게 유일할 경우를 RepU(replicated uniques)로 정의한다. RepU는 “원본에서 유일한 레코드가 합성에서도 그대로 유일하게 남아 있는 비율”을 나타내며, 원본 대비 위험이 얼마나 유지되는지를 직접 비교한다.
속성 공개 위험은 보다 복잡한 단계로 측정된다. 먼저 키 조합 q를 원본과 합성 모두에 매핑하고, 합성 데이터에서 동일한 q를 가진 레코드 집합이 존재하는 비율을 iS(in Synthetic)라 한다. 이어서 해당 q 집합 내 모든 레코드가 동일한 목표 변수 t 값을 갖는 경우를 DiS(Disclosive in Synthetic)로 정의한다. 마지막으로, 이러한 DiS 레코드 중 실제 원본 데이터에서도 동일한 t 값을 갖는 경우를 DiSCO(Disclosive in Synthetic Correct Original)라 명명한다. DiSCO는 “합성 데이터에서 키를 통해 정확히 원본 속성을 추론할 수 있는 비율”을 의미하며, 속성 공개 위험을 가장 보수적으로 평가한다.
함수 구현 측면에서 disclosure는 단일 합성 데이터와 원본을 입력받아 위 네 가지 신원 지표(UiO, UiS, UiOiS, RepU)와 다수의 속성 지표(Dorig, Dsyn, iS, DiS, DiSCO, DCAP 등)를 반환한다. multi.disclosure는 여러 합성 복제본을 한 번에 처리해 평균·분산 정보를 제공하고, 시각화 옵션을 통해 위험 분포를 직관적으로 확인할 수 있다. 숫자형 변수는 기본적으로 범주형으로 변환되며, ngroups_keys·ngroups_targets 파라미터를 통해 사용자 정의 구간화를 지원한다.
논문은 또한 위험 감소를 위한 사전·사후 조치(카테고리 병합, 연속형 변수 스무딩, 복제 유일값 제거 등)를 synthpop에 내장된 SDC 기능과 연계한다. 특히, 1‑way·2‑way 관계에 의해 발생하는 “예상 가능한” 공개 사례를 자동으로 플래그하고 제외할 수 있는 메커니즘을 제시한다. 마지막으로 차등 프라이버시(DP)와의 관계를 언급하면서, 제안된 지표가 DP 기반 합성 데이터의 효용·위험 평가에도 활용 가능함을 시사한다.
전체적으로 이 논문은 합성 데이터의 프라이버시 위험을 정량화하고, 실무자가 R 환경에서 손쉽게 적용·해석할 수 있는 도구와 지표 체계를 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기