LLM 프라이버시 편향: 맥락적 무결성 기반 감사 지표
초록
본 논문은 대형 언어 모델(LLM)의 응답에서 정보 흐름의 적절성을 평가하는 ‘프라이버시 편향’ 개념을 제시한다. 맥락적 무결성(CI) 이론을 기반으로 프라이버시 편향과 기대값 간 차이인 ‘프라이버시 편향 델타’를 측정함으로써 모델 훈련자, 서비스 제공자, 정책 입안자가 LLM의 프라이버시 위험을 정량·정성적으로 감사할 수 있는 메트릭을 제공한다. 또한 프롬프트 민감도 문제를 다중 프롬프트 평가 방식으로 해결하고, 모델 규모와 최적화 기법이 프라이버시 편향에 미치는 영향을 실험적으로 분석한다.
상세 분석
이 연구는 프라이버시를 “정보 흐름의 적절성”으로 정의하고, 이를 CI의 다섯 요소(송신자, 주체, 정보 유형, 수신자, 전송 원칙)와 연결시켜 ‘프라이버시 편향(P_bias)’이라는 텐서 형태의 메트릭을 만든다. P_bias는 각 요소의 가능한 값들을 축으로 하는 5차원 텐서이며, 특정 흐름에 대해 완전 지정하면 스칼라, 일부 요소를 미지정하면 행렬·벡터·슬라이스가 된다. 기대 적절성 A_exp은 법·규제·군중 조사 등에서 도출된 기준 텐서이며, 두 텐서 간 거리 D를 이용해 ‘프라이버시 편향 델타(Δ_bias)’를 정의한다. 단일 흐름에서는 절대 차, 순위 변환 후 차, 혹은 분류 일치 여부 등으로 계산하고, 다중 흐름에서는 평균 절대 차, 부호 평균, 분산·표준편차, KL·워셔스테인 등 분포적 발산 지표를 적용한다.
핵심적인 기술적 통찰은(1) 프롬프트 민감도가 높은 LLM 특성상 동일 흐름을 여러 파라프레이즈로 테스트해 변동성을 측정하고, 변동성이 낮은 경우에만 Δ_bias를 신뢰할 수 있다는 점이다. 이를 위해 저자는 “다중 프롬프트 평가” 절차를 제안하여, 동일한 맥락을 유지하면서도 표현을 달리한 프롬프트 집합을 생성하고, 응답의 일관성을 검증한다. (2) 모델 용량과 최적화 전략이 프라이버시 편향에 미치는 영향을 실험적으로 탐색한다. 대형 모델일수록, 그리고 RLHF·지시어 튜닝 등 안전성 강화 기법을 적용한 모델일수록 Δ_bias가 감소하고, 편향의 부호가 보다 중립에 가까워지는 경향을 보였다. (3) 기대값 A_exp이 존재하지 않을 때도 P_bias 자체를 분석함으로써 “정규적” CI 평가를 수행할 수 있다. 즉, 기대값이 없는 상황에서도 정보 흐름의 적절성을 상대적으로 비교·시각화할 수 있다.
이러한 프레임워크는 기존 연구가 주로 데이터 최소화·목적 제한 등 제한된 프라이버시 개념에 머물렀던 것을 넘어, CI의 근본 원칙인 “맥락에 맞는 정보 흐름”을 정량화한다는 점에서 차별화된다. 또한, 프라이버시 편향을 ‘통계적 편향’으로 해석함으로써, 편향이 반드시 부정적 의미를 갖지 않으며, 정책 입안자는 특정 도메인에서 허용 가능한 편향 범위를 정의하고, 모델 개발자는 이를 최소화하도록 설계할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기