메모리 재배치를 통한 보편적 데이터 삭제 방법
초록
본 논문은 손상·오염된 학습 데이터를 효율적으로 제거하기 위한 새로운 언러닝 기법인 REM(Redirection for Erasing Memory)을 제안한다. 저자들은 손상 데이터의 “발견 비율”(discovery rate)과 “통계적 규칙성”(regularity)이라는 두 축으로 구성된 2차원 작업 공간을 정의하고, 기존 방법들이 이 공간의 일부 영역에서만 성공하고 다른 영역에서는 급격히 성능이 떨어진다는 문제점을 지적한다. REM은 언러닝 시점에 전용 뉴런을 추가해 손상 데이터를 해당 뉴런으로 리다이렉션한 뒤, 해당 뉴런을 비활성화하거나 삭제함으로써 데이터의 영향을 완전히 차단한다. CIFAR‑10·SVHN 등 다양한 비전 모델과 옵티마이저에 대해 실험한 결과, REM은 전체 2차원 공간에서 일관되게 높은 유틸리티와 완전한 삭제 성능을 보이며, 기존 최첨단 방법들을 능가한다.
상세 분석
본 연구는 머신 언러닝 분야에서 “작업 공간(task space)”이라는 개념을 도입해 기존 방법들의 한계를 체계적으로 분석한다. 첫 번째 축인 발견 비율은 언러닝 시점에 식별된 손상 데이터 비율을 의미한다. 완전 발견(full discovery) 상황에서는 기존 방법들이 비교적 안정적인 성능을 보이지만, 부분 발견(partial discovery)으로 비율이 낮아질수록 재학습 기반 접근법(예: Scratch 재학습, SCRUB)이나 파인튜닝 기반 방법은 오염된 데이터를 retain set에 남겨두어 성능이 급격히 저하된다. 두 번째 축인 통계적 규칙성은 손상 데이터가 얼마나 구조화되어 있는지를 정량화한다. 저규칙성(low regularity) 데이터는 무작위 라벨 오류처럼 개별 샘플 간 유사성이 거의 없으며, 고규칙성(high regularity) 데이터는 트리거가 삽입된 포이즈닝 공격처럼 시각적·라벨 패턴이 일관된다. 저자는 Jiang et al.의 consistency score(C‑score)를 정량적 지표로 제시하고, 이를 통해 CIFAR‑10에서의 여러 손상 시나리오를 정렬한다.
기존 SOTA 방법들의 실패 원인을 두 축에 매핑하면 다음과 같다.
- BadT, SCRUB, Fine‑tuning: retain set에 오염이 남아 있어 부분 발견 상황에서 재오염이 발생한다.
- Potion (SSD 기반): 고규칙성 손상에 집중된 파라미터를 식별·제거하는 데 강점이 있으나, 저규칙성 데이터는 분산된 파라미터에 존재하므로 효과가 미미하고, 오히려 모델 유틸리티가 크게 손상된다.
- Gradient Ascent / NPO: 고규칙성 파라미터를 직접 역전파로 감소시키지만, 저규칙성 데이터가 넓은 파라미터 공간에 퍼져 있어 과도한 손실을 초래한다.
- ETD: 메모리 파티션을 도입해 저규칙성 데이터를 전용 경로에 격리하고, 추론 시 해당 경로를 드롭아웃함으로써 삭제한다. 그러나 고규칙성 데이터는 일반화 파티션에 저장되므로 삭제가 불가능하다.
REM은 이러한 한계를 극복하기 위해 전용 뉴런 집합을 동적으로 추가한다. 구체적으로, 언러닝 단계에서 손상 데이터 D_f 를 입력으로 받아 해당 샘플들을 새로운 “리다이렉션 레이어”에 매핑한다. 이 레이어는 기존 모델 파라미터와 완전히 독립적인 가중치를 갖으며, 학습 시점에만 활성화된다. 이후 언러닝 단계에서 해당 레이어를 **비활성화(deactivate)**하거나 가중치를 0 으로 초기화함으로써 손상 데이터가 모델 내부에 남긴 모든 신호를 차단한다. 중요한 점은 이 과정이 모델 전체 재학습 없이 수행된다는 것이다. 따라서 연산 비용은 기존 파인튜닝 대비 O(1) 수준이며, 메모리 오버헤드도 추가된 뉴런 수에 비례해 제한적이다.
실험 설계는 두 축을 격자 형태로 샘플링한 3×5 조합(발견 비율 10 %–100 %와 규칙성 low/medium/high)에서 진행되었다. 모델 아키텍처는 ResNet‑9과 Vision Transformer(ViT)를 사용했으며, 옵티마이저는 SGD, Adam, AdamW를 포함한다. 평가 지표는 Unlearning Accuracy(삭제된 데이터에 대한 오류율), Utility Retention(전체 테스트 정확도 유지), Healing Score(정확히 올바른 라벨로 복구되는 비율)이다. 결과는 모든 축에서 REM이 가장 높은 유틸리티와 완전한 삭제를 달성했으며, 특히 부분 발견 30 % 이하 상황에서도 고규칙성 포이즈닝을 완벽히 제거했다는 점에서 기존 방법들을 압도한다. 또한, 추가된 뉴런 수가 전체 파라미터 대비 2 % 미만에 불과해 실용적인 메모리 비용을 보장한다.
이 논문의 주요 기여는 다음과 같다.
- 2차원 작업 공간을 제안해 언러닝 문제를 체계적으로 분류하고, 기존 방법들의 적용 가능 범위를 시각화하였다.
- REM이라는 새로운 메커니즘을 도입해 손상 데이터를 전용 뉴런으로 격리·삭제함으로써, 발견 비율과 규칙성에 관계없이 일관된 성능을 제공한다.
- 다양한 비전 모델·옵티마이저·데이터셋에 대한 광범위한 벤치마크를 수행해 REM의 범용성을 실증하였다.
- 정량적 정규성 지표(C‑score)를 활용해 손상 데이터의 특성을 정량화하고, 이를 기반으로 언러닝 난이도를 예측할 수 있는 프레임워크를 제시했다.
향후 연구 방향으로는 (i) 텍스트·음성 등 비전 외 도메인에 REM을 확장, (ii) 동적 메모리 할당 전략을 통해 추가 뉴런 수를 최소화, (iii) 연합 학습(Federated Learning) 환경에서의 보안·프라이버시 보장을 위한 분산형 REM 구현 등이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기