DP‑Fusion 토큰 수준 차등 개인정보 보호 추론
초록
DP‑Fusion은 대형 언어 모델(LLM) 추론 시 민감 토큰의 영향을 수학적으로 제한하는 차등 개인정보 보호(DP) 메커니즘이다. 민감 토큰을 라벨링하고, 라벨링된 토큰을 제외한 베이스라인과 포함한 두 번의 추론 결과를 혼합해 최종 출력의 분포 거리를 ε로 제어한다. 이를 통해 문서 전체를 고품질로 패러프레이즈하면서도 개인식별정보(PII) 누출 위험을 이론적·실험적으로 크게 낮춘다.
상세 분석
DP‑Fusion은 기존 추론‑시 개인정보 보호 방법이 갖는 두 가지 근본적인 한계, 즉(1) 형식적인 DP 보장이 부족하고(2) 유틸리티‑프라이버시 트레이드‑오프가 비효율적이라는 점을 동시에 해결한다. 핵심 아이디어는 “토큰‑레벨” DP를 적용해 민감 토큰이 모델 출력에 미치는 영향을 직접 제한하는 것이다. 구체적인 절차는 다음과 같다. 첫째, 사전 학습된 NER 혹은 도메인‑특화 태거를 이용해 문서 내 민감 토큰(예: 이름, 날짜, 주소 등)을 식별하고 그룹화한다. 둘째, 식별된 토큰을 완전히 제거한 ‘레드액트’ 버전과 원본 버전 두 가지 입력을 동일한 LLM에 각각 전달한다. 셋째, 두 입력에 대해 얻은 다음 토큰 확률 분포 (P_{\text{orig}})와 (P_{\text{redact}})를 선형 혼합한다. 혼합 비율 (\lambda)는 ε‑DP 보장을 만족하도록 이론적으로 계산되며, 실제 구현에서는 라그랑주 승수를 이용한 이분 탐색(bisection)으로 최적 λ를 찾는다. 최종 분포 (P_{\text{mix}} = \lambda P_{\text{orig}} + (1-\lambda) P_{\text{redact}})는 원본 분포와의 총변동거리(TV) 혹은 KL‑다이버전스가 ε 이하가 되도록 설계된다.
이 메커니즘은 두 가지 중요한 보안 특성을 제공한다. 첫째, 공격자는 레드액트 버전만을 관찰해도 민감 토큰을 복원하기 어렵다. 왜냐하면 레드액트 버전은 토큰‑레벨 DP에 의해 민감 토큰의 존재 여부가 확률적으로 희석되기 때문이다. 둘째, 공격자가 원본 LLM의 파라미터와 구조를 완전히 알고 있더라도, 토큰‑레벨 DP가 보장하는 ‘인접 데이터’ 정의에 따라 민감 토큰이 포함된 입력과 제외된 입력 사이의 출력 분포 차이가 ε로 제한되므로, 성공적인 멤버십 혹은 재구성 공격의 성공률이 이론적 상한을 초과하지 않는다.
DP‑Fusion은 기존 방법과 비교했을 때 몇 가지 실험적 장점을 보인다. 첫째, DP‑Decoding(Uniform 혼합)이나 DP‑Prompt(로짓 클리핑)과 달리, DP‑Fusion은 민감 토큰을 완전히 제거한 베이스라인을 활용함으로써 ‘노이즈’를 추가하는 대신 실제 의미 있는 문맥을 보존한다. 이는 특히 문서 전체를 패러프레이즈하는 ‘문서 프라이버타이제이션’ 시나리오에서 텍스트 품질(perplexity) 감소를 크게 완화한다. 논문에서는 동일한 ε 설정 하에 기존 DPI 기법 대비 6배 낮은 퍼플렉시티를 달성했으며, 인간 평가에서도 의미 보존과 가독성에서 유의미한 우위를 확인했다.
또한, DP‑Fusion은 ‘프라이버시 그룹’ 별 ε를 다르게 설정할 수 있는 유연성을 제공한다. 예를 들어, 이름(NAMES)에는 ε=0.1, 날짜(DATES)에는 ε=0.5와 같이 민감도에 따라 차등 보호가 가능하다. 이는 실제 의료·법률 데이터와 같이 토큰 간 민감도가 상이한 도메인에 특히 유용하다. 마지막으로, 구현 측면에서 DP‑Fusion은 기존 LLM 파이프라인에 최소한의 오버헤드만 추가한다. 두 번의 순방향 추론과 간단한 분포 혼합 연산만 필요하므로, GPU 메모리와 연산량이 크게 증가하지 않는다. 전체적으로 DP‑Fusion은 이론적 DP 보장을 유지하면서도 실용적인 유틸리티를 제공하는 차세대 추론‑시 프라이버시 솔루션이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기