기계 잊힘 평가 재검토: 표현 기반 벤치마크와 대규모 시나리오
초록
본 논문은 기존 기계 잊힘(머신 언러닝) 연구가 로그잇 기반 소규모 실험에 치우쳐 실제 데이터 삭제 효과를 과대평가하고 있음을 지적한다. 대규모 이미지넷-1K 데이터와 다양한 백본(ResNet‑50, Swin‑T, ConvNeXt)을 활용해 특징 표현 유사성을 CKA와 k‑NN으로 정량화하고, 기존 방법들이 실제 표현을 거의 변화시키지 않으며 단지 분류 헤드만 수정한다는 사실을 밝힌다. 또한, 다운스트림 작업과 의미적으로 겹치는 ‘Top Class‑wise Forgetting’ 시나리오를 제안해 보다 엄격한 평가 프로토콜을 제공한다.
상세 분석
이 논문은 머신 언러닝 평가 패러다임을 근본적으로 재구성한다는 점에서 학술적·실무적 의의가 크다. 첫째, 기존 연구가 주로 CIFAR‑10/100 등 소규모 데이터셋에서 Forget Accuracy와 Retain Accuracy 같은 로그잇 기반 지표만을 사용해 “잊힘 성공”을 선언했지만, 이러한 지표는 모델 내부 표현이 얼마나 변했는지를 전혀 반영하지 못한다는 근본적 한계를 명확히 제시한다. 저자들은 대규모 ImageNet‑1K(약 128만 이미지)와 최신 백본을 이용해 실제 서비스 환경을 모사함으로써 평가 스케일을 100배 이상 확대한다.
둘째, 표현 기반 평가를 위해 Centered Kernel Alignment(CKA)와 k‑Nearest Neighbor(k‑NN) 분석을 도입했다. CKA는 원본 모델(θₒ)과 재학습 모델(θᵣ) 사이의 구조적 유사성을 정량화하며, 이상적인 언러닝 모델은 θᵣ와 거의 동일한 CKA 점수를 보여야 한다(값 10에 근접). 실험 결과, 기존 언러닝 알고리즘들은 모두 θₒ와 더 높은 유사성을 보였으며, 이는 실제 특징 공간이 거의 변하지 않았음을 의미한다. k‑NN 평가에서는 다양한 다운스트림 데이터셋(예: Office‑Home, Caltech‑101 등)에서 특징 추출 성능을 측정했는데, 언러닝 모델이 재학습 모델과 비교해 거의 차이가 없거나 오히려 성능이 떨어지는 현상이 관찰되었다. 이는 “분류 헤드만 교체”된 경우가 대부분임을 시사한다.
셋째, 논문은 기존의 ‘무작위 클래스 삭제’ 방식이 실제 프라이버시 요구와 맞지 않을 수 있음을 지적한다. 무작위 클래스는 다른 클래스와 의미적 연관성이 낮아, 특징이 남아 있더라도 로그잇 수준에서 큰 차이가 나타나지 않는다. 이를 보완하기 위해 저자들은 ‘Top Class‑wise Forgetting’이라는 새로운 시나리오를 제안한다. 여기서는 잊혀야 할 클래스가 다운스트림 작업과 의미적으로 겹치도록 선택되며, 성공적인 언러닝은 원본 모델과의 특징 거리(CKA)가 크게 증가하고, 다운스트림 성능이 현저히 저하되는 것을 요구한다. 이 설정은 실제 GDPR 등 법적 요구에서 “특정 개인 혹은 그룹에 대한 정보가 완전히 사라져야 한다”는 조건을 더 잘 반영한다.
마지막으로, 제안된 벤치마크는 평가 비용이 낮다. CKA와 k‑NN은 추가 학습 없이 기존 모델의 특징을 추출해 바로 계산할 수 있어, 대규모 실험에서도 실용적이다. 또한, 다양한 백본과 다운스트림 데이터셋을 포함함으로써 평가의 일반화 가능성을 확보한다. 전체적으로 이 논문은 머신 언러닝 연구가 로그잇 중심에서 벗어나, 내부 표현까지 고려한 다층적 평가 체계로 전환해야 함을 강력히 주장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기