머신 언러닝의 숨은 위험 과잉 언러닝과 프로토타입 재학습 공격
초록
본 논문은 클래스 수준 머신 언러닝에서 발생하는 두 가지 맹점을 규명한다. 첫째, 잊혀야 할 데이터와 인접한 영역에서 모델 성능이 과도하게 저하되는 ‘과잉 언러닝’ 현상을 정량화하는 OU@ε 지표를 제안한다. 둘째, 소수의 샘플만으로도 잊힌 클래스를 빠르게 복원할 수 있는 ‘프로토타입 재학습 공격(PRA)’을 소개한다. 이를 완화하기 위해 마스크된 지식 증류와 클래스 내 분산 손실을 결합한 플러그‑인 방식 Spotter를 설계하고, CIFAR‑10/100, TinyImageNet, CASIA‑WebFace에서 기존 방법들을 능가하는 성능을 입증한다.
상세 분석
논문은 머신 언러닝(MU)의 실용적 적용에서 간과되기 쉬운 두 가지 위험을 체계적으로 탐구한다. 첫 번째 위험인 과잉 언러닝은 기존 MU 기법이 목표 데이터(Forget set)를 제거하면서, 해당 클래스와 경계가 얽힌 보존 데이터(Retain set)의 표현을 과도하게 변형시키는 현상이다. 이를 정량화하기 위해 저자들은 ε‑볼 내에서 Forget 샘플을 교란시킨 집합 Aε(Df)를 정의하고, 원본 모델과 언러닝 후 모델의 마스크된 소프트맥스 확률 분포 차이를 KL 혹은 JS 발산으로 측정한다. 특히 마스크된 소프트맥스는 Forget 클래스를 0으로 만든 후 나머지 클래스에 대해 재정규화함으로써, 보존 클래스에 대한 순수한 성능 변화를 추출한다. OU@ε는 보존 데이터에 접근할 필요 없이 Forget 샘플만으로 계산 가능하다는 점에서 평가 비용을 크게 낮춘다.
두 번째 위험은 Prototypical Relearning Attack(PRA)이다. 기존 연구는 LLM에서 소수의 프롬프트로 지식을 복원할 수 있음을 보였지만, 비전 분야에서는 아직 충분히 검증되지 않았다. 저자들은 특징 추출기 φθ를 이용해 각 클래스의 프로토타입 p(c)θ=1/k∑i φθ(xi) 를 구하고, 이 프로토타입만으로 새로운 로짓 함수를 구성한다. 코사인 유사도 혹은 L2 거리 기반의 간단한 선형 변환을 통해, 단 1~N개의 Forget 샘플만으로도 원래 클래스 결정 경계를 거의 완전 복원한다. 실험 결과, PRA는 기존 미세조정 기반 재학습 공격보다 훨씬 적은 샘플과 학습 단계로 높은 Forget 클래스 정확도(Acc_f)를 회복한다.
이러한 두 맹점을 동시에 완화하기 위해 제안된 Spotter는 두 가지 손실을 결합한다. 첫째, 마스크된 지식 증류(masked KD) 손실은 Aε(Df) 내 교란 샘플에 대해 원본 모델의 출력 분포를 유지하도록 강제한다. 이는 OU@ε를 직접 최소화하는 역할을 한다. 둘째, intra‑class dispersion 손실은 Forget 클래스의 임베딩을 의도적으로 분산시켜, 프로토타입이 뭉쳐지는 현상을 방지한다. 이 두 손실은 기존 MU 알고리즘(예: 파라미터 마스킹, 경계 이동, 기존 KD) 위에 플러그‑인 형태로 적용 가능하며, 추가 연산 비용이 미미하다.
실험에서는 CIFAR‑10/100, TinyImageNet, 그리고 얼굴 인식 데이터셋인 CASIA‑WebFace에 대해 다양한 베이스라인(MU‑SOTA, 파라미터 리셋, 기존 KD 등)과 비교하였다. Spotter를 적용한 모델은 OU@ε가 30% 이상 감소하고, PRA에 대한 복원 정확도는 5% 이하로 억제하면서, Retain 정확도는 1% 미만의 손실만을 보였다. 특히 얼굴 인식 시나리오에서 Forget 클래스가 개인 신원에 해당하므로, Spotter는 실무적인 프라이버시 요구사항을 만족시키는 데 큰 의미를 가진다.
전반적으로 이 논문은 MU 연구에서 평가 지표와 보안 위협을 동시에 제시하고, 실용적인 해결책을 제공함으로써 향후 규제 대응형 AI 시스템 구축에 중요한 기준을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기