시간적 연속성을 보존하는 차등 프라이버시 합성 테이블 생성
초록
본 논문은 사용자별 전체 테이블을 프라이버시 단위로 삼아, 차등 프라이버시를 적용한 대규모 언어 모델(LLM)을 미세조정함으로써 시계열 특성을 유지하는 합성 테이블을 생성하는 PATH 프레임워크를 제안한다. 기존의 행 기반 마진 메커니즘을 평탄화(flatten)하여 사용하면 차원 폭발과 인공적 희소성으로 인해 시간적 일관성이 손상되지만, PATH는 자동회귀 방식으로 행을 순차적으로 생성해 장기 의존성을 보존한다. 실험에서는 MIMIC‑IV 생체신호와 NYC 311 데이터에 대해 TDCR, 상태 전이 오류, MA‑UVE 등 다양한 지표에서 기존 마진 기반 방법보다 50 % 이상 개선된 결과를 보였다.
상세 분석
본 연구는 차등 프라이버시(DP) 하에서 장기 의존성을 가진 종단형( longitudinal) 테이블 데이터를 합성하는 새로운 패러다임을 제시한다. 기존 DP 기반 합성 방법은 대부분 i.i.d. 행을 전제로 하며, 사용자당 하나의 행만을 프라이버시 단위로 삼는다. 이러한 가정은 전자의 전자 건강 기록(EHR)처럼 한 사용자가 여러 시점에 걸쳐 기록된 다수의 행을 갖는 경우에 적용하기 어렵다. 논문은 이를 “사용자‑레벨 DP”라는 개념으로 정형화하고, 두 데이터셋 D와 D′이 이웃 관계에 있으면 한 사용자의 전체 테이블을 추가·삭제하는 것으로 정의한다. 이때 (ε,δ)-DP 보장을 위해 DP‑SGD를 사용해 LLM을 미세조정한다는 점이 핵심이다.
평탄화(flattening) 접근법은 가변 길이의 테이블을 고정 길이 벡터로 변환해 기존 마진 기반 메커니즘(AIM, GEM 등)에 적용하려는 시도이다. 그러나 변환 과정에서 시퀀스 길이에 따라 대량의 NULL 패딩이 삽입되고 차원이 급격히 늘어나면서, 저차원 마진(예: 1‑order, 2‑order)만을 측정해도 전체 의존 구조를 충분히 포착하지 못한다. 논문은 이론적 예시와 실험적 증거를 통해 평탄화가 “지역적으로는 타당하지만 전역적으로는 비일관적인” 경로를 생성하게 됨을 보여준다.
PATH는 이러한 한계를 극복하기 위해 두 단계 생성 파이프라인을 설계한다. 첫 단계에서는 사전 학습된 Gemma‑3 계열 LLM을 DP‑SGD로 미세조정해, 각 행을 이전 행들의 컨텍스트에 조건화시켜 자동회귀적으로 생성한다. 이는 시계열 데이터의 마코프적 전이와 장기 의존성을 자연스럽게 학습하도록 돕는다. 두 번째 단계에서는 생성된 행 집합에 대해 프라이버시 보장을 위한 선택 과정을 적용해, 불필요한 중복이나 과도한 노이즈 삽입을 방지한다.
평가 지표도 다각도로 설계되었다. 기존의 컬럼별 마진 정확도 외에, (1) TDCR(Table‑wise Distance to Closest Record) – DTW 기반 거리로 테이블 간 유사성을 측정하고, JSD로 분포 차이를 정량화한다. (2) 상태 전이 매트릭스와 HMM 로그우도 평가를 통해 시계열 일관성을 검증한다. (3) MA‑UVE를 이용해 전체 데이터 매니폴드의 겹침 정도를 측정한다. (4) 임베딩 기반 분류기(로지스틱 회귀, 랜덤 포레스트, XGBoost)를 활용한 구분 불가능성 테스트도 수행한다.
실험 결과는 두 가지 실제 데이터셋에서 일관되게 나타난다. MIMIC‑IV 생체신호 데이터에서는 PATH(Gemma‑4B)가 기존 AIM 기반 방법에 비해 TDCR을 50 % 이상 감소시키고, 상태 전이 오류를 48 % 감소시켰다. NYC 311 서비스 요청 데이터에서도 시간대별 요청 패턴과 지리적 분포를 정확히 재현했으며, MA‑UVE 점수가 0.92에 달해 거의 완벽한 매니폴드 겹침을 보였다. 또한, 프라이버시 예산 ε=2.0, δ=1e‑5 하에서도 높은 유틸리티를 유지함으로써 차등 프라이버시와 시계열 데이터 합성 사이의 트레이드오프를 크게 완화시켰다.
이 논문은 (1) 사용자 전체 테이블을 프라이버시 단위로 삼는 새로운 DP 정의, (2) LLM의 자동회귀 능력을 활용한 차등 프라이버시 미세조정 방법, (3) 시계열 데이터 특화 평가 지표 체계라는 세 축을 통해 차등 프라이버시 기반 합성 데이터 연구에 중요한 전환점을 제공한다. 향후 이 프레임워크는 이질적인 스키마를 가진 다중 테이블, 멀티모달 시계열, 그리고 실시간 데이터 스트림 등 다양한 응용 분야로 확장될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기