컨포멀 언러닝 새로운 예측 집합 망각 패러다임
초록
본 논문은 기존 머신 언러닝 기법이 커버리지 기반의 컨포멀 예측에 적용될 때 발생하는 ‘가짜 컨포멀 언러닝’ 문제를 지적하고, 재학습 모델을 기준으로 하지 않는 확률적 정의와 유한표본 보장을 제시한다. 고커버리지를 유지해야 할 보존 데이터와 고미커버리(오차) 를 달성해야 할 망각 데이터를 동시에 만족하도록 설계된 평가 지표(ECF, EmCF)와 최적화 알고리즘을 제안한다. 이미지·텍스트 벤치마크 실험을 통해 목표 데이터의 정보는 효과적으로 제거하면서 전체 성능을 보존함을 입증한다.
상세 분석
논문은 먼저 컨포멀 예측(Conformal Prediction, CP)의 핵심 개념을 재정리하고, 기존 머신 언러닝(MU) 방법이 “재학습 모델(RT)과 파라미터 차이”에 의존하는 한계점을 강조한다. 특히 파라미터 공간에서의 ε‑δ 인증은 동일 파라미터라도 다른 학습 데이터에서 유래할 수 있다는 ‘포지어빌리티’ 문제와, 정확도 기반 평가가 CP 집합의 커버리지를 반영하지 못해 ‘가짜 컨포멀 언러닝(fake conformal unlearning)’ 현상이 발생한다는 점을 실험적으로 보여준다.
이를 극복하기 위해 저자는 “컨포멀 언러닝”을 **고미커버지(잊혀진 데이터에 대해 true label이 예측 집합에 포함되지 않을 확률)와 **고커버지(보존 데이터에 대해 true label이 포함될 확률)라는 두 확률적 목표로 정의한다. 이 정의는 (i) 재학습 모델에 대한 의존성을 배제하고, (ii) 직접 관측 가능한 커버리지/미커버리지 비율에 기반하므로 파라미터 위조에 강건하며, (iii) 교환가능성(exchangeability) 가정 하에 유한표본 보장을 제공한다.
구체적인 평가 지표로는
- Empirical Coverage Frequency (ECF): 예측 집합 크기가 사전 정의된 상한 c 이하인 경우에 true label이 포함되는 비율,
- Empirical mis‑Coverage Frequency (EmCF): 예측 집합 크기가 상한 d 이하이면서 true label이 제외되는 비율,
을 도입한다. 이 두 지표는 각각 보존 데이터와 망각 데이터에 대한 목표를 정량화한다.
알고리즘 측면에서는 기존 CP의 비컨포멀 점수(s)와 동일한 형태를 유지하면서, 망각 데이터에 대해 점수 분포를 인위적으로 상승시켜 미커버지를 높이고, 보존 데이터에 대해서는 기존 캘리브레이션 절차를 그대로 적용한다. 최적화는 목표 함수 L = λ·EmCF – (1‑λ)·ECF 형태의 가중합을 최소화하는 형태로 구현되며, 스케일러블하게 배치‑단위 업데이트가 가능하도록 설계되었다.
실험에서는 CIFAR‑100, ImageNet‑subset, 그리고 텍스트 분류 데이터셋에 대해 클래스‑단위, 클러스터‑단위, 사용자‑특정 속성 기반 망각 시나리오를 설정하였다. 결과는 (1) 망각 클래스에 대한 미커버지가 80 % 이상으로 크게 상승, (2) 보존 클래스에 대한 커버리지는 95 % 수준을 유지, (3) 전체 정확도와 효율성(예측 집합 평균 크기) 손실이 최소화되는 것을 보여준다. 특히 재학습 모델과 비교했을 때, Grad‑CAM 시각화에서 망각 데이터에 대한 특징 강조가 현저히 감소했음에도 불구하고 파라미터 차이는 거의 없으며, 이는 파라미터 기반 인증이 실제 행동을 반영하지 못함을 다시 한 번 입증한다.
이 논문은 컨포멀 예측의 불확실성 정량화를 언러닝 목표에 직접 연결함으로써, 기존 MU가 갖는 “정확도‑중심” 한계를 넘어서는 새로운 패러다임을 제시한다. 또한 유한표본 보장을 갖는 통계적 정의와 실용적인 평가 지표를 제공함으로써, 규제 준수와 프라이버시 보호가 요구되는 실무 환경에서 바로 적용 가능한 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기