머신 언러닝의 숨은 위험: 교란된 샘플에 남는 잔류 지식
초록
본 논문은 기존 인증된 머신 언러닝이 원본 데이터는 삭제하더라도, 해당 데이터의 작은 적대적 교란에 대해 모델이 여전히 올바르게 예측함으로써 잔류 지식을 보유할 수 있음을 밝힌다. 고차원 공간에서 이러한 현상이 불가피함을 이론적으로 증명하고, 교란된 포겟 샘플을 올바르게 인식하지 못하도록 하는 RURK라는 미세조정 기법을 제안한다. 실험을 통해 기존 언러닝 방법들에서 잔류 지식이 널리 존재함을 확인하고, RURK가 이를 효과적으로 억제하면서 전체 성능을 유지함을 입증한다.
상세 분석
이 논문은 머신 언러닝(ML unlearning)의 핵심 보안 가정인 “(ε,δ)-indistinguishability”가 실제 서비스 환경에서 요구되는 강인성을 충분히 반영하지 못한다는 점을 지적한다. 기존 연구는 언러닝된 모델 M과 완전 재학습된 모델 A가 통계적으로 구분되지 않음을 보장하지만, 이는 주로 원본 입력에 대한 출력 차이에만 초점을 맞춘다. 저자들은 입력 공간의 작은 ℓp-볼 안에서, 특히 적대적 교란(adv perturbation)된 포겟 샘플에 대해 두 모델이 서로 다른 예측을 할 확률이 양립한다는 것을 보여준다.
핵심 이론적 기여는 두 부분으로 나뉜다. 첫째, Proposition 1은 (ε,δ)-indistinguishability가 사후 처리 함수인 적대적 예제 생성 함수 gₓ에 적용될 때, 구분 가능성이 2δ/(1−e^{−ε}) 만큼 악화될 수 있음을 수식으로 제시한다. 이는 언러닝 인증이 “모델 자체”에 대해서만 강력하지만, “모델을 이용해 만든 파생 객체”에 대해서는 약해진다는 의미다. 둘째, 고차원 기하학적 확률(Talagrand’s inequality)을 이용해, 입력이 단위 구(S^{d−1})에 균등하게 분포한다고 가정하면, 모델 간 불일치 함수 k(x)=𝟙
댓글 및 학술 토론
Loading comments...
의견 남기기