엔드투엔드 협업 합성 데이터 생성 프레임워크
초록
본 논문은 다중 데이터 보관기관이 참여하는 환경에서 입력·출력 프라이버시를 동시에 보장하면서 전처리, 하이퍼파라미터 튜닝, 평가까지 포함한 전체 합성 데이터 생성 파이프라인을 안전하게 수행하는 엔드투엔드 프레임워크를 제안한다. 구현은 차등 프라이버시를 MPC 내부에서 적용하는 DP‑in‑MPC 방식을 사용하며, 백혈병 유전체 데이터 사례를 통해 실험적 유효성을 확인한다.
상세 분석
이 연구는 기존 연합 합성 데이터 생성 연구가 합성기 학습 단계에만 초점을 맞추고, 데이터 전처리와 평가·하이퍼파라미터 튜닝을 별도 과정으로 가정한다는 한계를 정확히 짚어낸다. 특히 연합 환경에서 연속형 특성의 양자화(quantile binning)와 같은 전처리 작업이 전체 데이터에 대해 수행되어야 최적의 유틸리티를 얻을 수 있음에도, 기존 방식은 각 실루에서 로컬 전처리를 강요하거나 전역 범위 정보를 사전에 공유해야 하는 비현실적인 전제를 둔다. 논문은 이러한 문제를 해결하기 위해 DP‑in‑MPC 프로토콜을 도입한다. 구체적으로, 각 보관기관은 자신의 원시 데이터를 비밀 공유(secret sharing) 형태로 MPC 서버에 전달하고, 서버들은 비밀 공유된 데이터 위에서 차등 프라이버시 보장을 위한 노이즈 추가, 양자화 경계 계산, 그리고 합성 데이터 생성 모델(Private‑PGM)의 학습을 수행한다.
핵심 기여는 “예산 재설정” 메커니즘이다. 파이프라인의 각 반복(iteration)에서는 동일한 프라이버시 예산 ε를 할당하고, 전처리·학습·평가 단계에서 소비된 예산을 실제로 차감하지 않는다. 이는 아직 외부에 공개되지 않은 중간 결과(합성 데이터, 모델 파라미터, 평가 지표 등)를 비밀 상태로 유지하기 때문에 가능하다. 따라서 여러 번의 하이퍼파라미터 탐색을 수행하더라도 전체 프라이버시 비용은 단일 실행과 동일하게 ε에 머문다.
또한 논문은 k‑fold 교차 검증을 활용한 평가 절차를 MPC 내에서 구현한다. 각 폴드마다 비밀 공유된 훈련·검증 데이터를 사용해 모델을 학습하고, 검증 결과를 평균화해 품질 기준(threshold)과 비교한다. 기준을 만족하면 최적 하이퍼파라미터를 확정하고, 전체 데이터에 대해 최종 학습·합성 데이터를 생성한다. 이 과정 전체가 비밀 공유와 차등 프라이버시 보호 하에 진행되므로 입력 프라이버시와 출력 프라이버시가 동시에 보장된다.
실험에서는 다섯 개의 백혈병 유형(ALL, AML, CLL, CML, 기타)의 유전체 데이터를 여러 병원으로부터 수집해 시뮬레이션하였다. Naïve한 MPC 프로토콜을 사용해 런타임을 측정했으며, 합성 데이터의 유틸리티는 로지스틱 회귀 기반 분류 정확도와 마진 차이(워크로드 오류) 등 여러 메트릭으로 평가했다. 결과는 중앙집중식 DP 방식과 비교해 큰 손실 없이 비슷한 품질을 유지함을 보여준다.
이 프레임워크는 모듈식 설계로, 전처리, 평가, 합성 모델 학습 각각에 맞는 DP‑in‑MPC 프로토콜만 교체하면 다양한 도메인과 데이터 형태에 적용 가능하다. 비동기식 구조 덕분에 데이터 보관기관은 언제든 비밀 공유만 제공하면 되고, 실제 연산은 별도의 신뢰할 수 없는 서버 풀에서 수행된다. 따라서 법적·규제적 제약이 강한 의료·금융 분야에서 실용적인 협업 합성 데이터 파이프라인을 제공한다는 점이 큰 의의이다.
댓글 및 학술 토론
Loading comments...
의견 남기기