경계 보존 연속 언러닝을 위한 자유 에너지 반발 프레임워크
초록
TFER는 자유 에너지 원리를 이용해 잊혀진 클래스를 고에너지 OOD 영역으로 밀어내고, 남은 클래스는 저에너지 ID 매니폴드에 고정시키는 Push‑Pull 메커니즘을 제안한다. LoRA 기반 저차원 파라미터 업데이트와 정규직교 모듈을 통해 연속 언러닝에서도 기존 경계를 유지하며 효율적으로 수행한다.
상세 분석
본 논문은 OOD 검출 모델이 요구하는 정적인 ID 매니폴드와, 개인정보 보호·모델 수정 요구에 따른 동적인 클래스 언러닝 사이의 근본적인 기하학적 모순을 정확히 짚어낸다. 기존 OOD 탐지는 클래스 프로토타입을 중심으로 고밀도 매니폴드를 형성하고, 이 매니폴드와의 거리 혹은 자유 에너지 값을 기준으로 이상치를 판별한다. 반면 전통적인 언러닝 기법은 분류 정확도 감소에 초점을 맞추어, 잊혀진 클래스의 특징을 무작위로 변형하거나 라벨을 뒤섞는 방식으로 매니폴드를 파괴한다. 이 과정에서 ID 매니폴드가 붕괴하고, 잊혀진 클래스와 남은 클래스가 겹쳐 OOD 경계가 흐려지는 ‘Catastrophic Forgetting’ 현상이 발생한다.
TFER는 이러한 모순을 “Forget‑as‑OOD”라는 새로운 평가 기준으로 전환한다. 즉, 잊혀진 클래스를 OOD 샘플처럼 고에너지 영역에 위치시키는 것이 언러닝 성공의 핵심이다. 이를 위해 저차원 LoRA 어댑터를 삽입하고, 두 개의 손실 함수를 동시에 최적화한다.
-
Push 손실 (L_unlearn) – 전체 보존 클래스의 로그‑합계(exp) 형태인 자유 에너지 E(z;Y_Retain)를 정의하고, 이를 최소화함으로써 잊혀진 샘플이 모든 보존 클래스의 로그‑합계 값을 크게 만들도록 유도한다. 수식적으로는 L_unlearn = log Σ_j∈Y_Retain exp(L_j(z_u)) 로, 이는 샘플을 ID 매니폴드 전역에서 멀어지게 하는 힘을 제공한다.
-
Pull 손실 (L_protect) – 보존 클래스의 프로토타입과 샘플 간 코사인 유사도를 최대화하는 교차 엔트로피 형태로, 기존 매니폴드의 구조를 유지한다. 또한 프로토타입 대비 대비 손실(L_proto‑contra)을 도입해 클래스 간 경계를 명확히 한다.
이 두 손실은 Push‑Pull 게임을 형성한다. 논문은 Gradient Stability를 기하학적으로 분석하여, Push 손실의 그래디언트가 보존 클래스들의 그래디언트 Convex Hull 안에 머무르므로 폭발적인 그래디언트가 발생하지 않으며, 점차 α_j 가 균등해짐에 따라 힘이 전체 매니폴드의 ‘공허’ 방향으로 평균화된다고 설명한다. 이는 전통적인 Gradient Ascent 방식이 겪는 불안정성을 근본적으로 해결한다.
연속 언러닝을 위해서는 새로운 언러닝 작업이 기존 작업의 파라미터 서브스페이스와 겹치지 않도록 해야 한다. TFER는 Modular Orthogonal Strategy를 도입해 각 언러닝 단계마다 독립적인 LoRA 어댑터를 학습하고, 새로운 어댑터의 업데이트 행렬 A_t 와 이전 어댑터 A_ref_{t‑1} 사이의 내적을 최소화하는 정규화 L_orth = || (A_t‑A_ref_{t‑1})^T A_ref_{t‑1} ||_F^2 를 적용한다. 이로써 ‘Catastrophic Recall’ 현상을 방지하고, 장기적인 언러닝 지속성을 확보한다.
실험에서는 CIFAR‑100을 ID 데이터로, SVHN, LSUN, Textures, Places365, iSUN 등을 OOD 테스트셋으로 사용하였다. 평가 지표는 Forget‑as‑OOD를 위한 AUROC/FPR95, 보존 클래스 정확도, 외부 OOD AUROC, 파라미터 수·학습 시간 등이다. TFER는 기존 방법에 비해 잊혀진 클래스의 AUROC를 크게 향상시키면서도 보존 클래스 정확도와 외부 OOD 검출 성능을 거의 유지한다. 특히 저차원 LoRA 파라미터만을 업데이트함으로써 전체 파라미터 대비 1~2% 수준의 경량화와 5배 이상 빠른 학습 시간을 달성하였다.
요약하면, TFER는 자유 에너지 기반의 Push‑Pull 메커니즘, 저차원 LoRA 적응, 그리고 정규직교 모듈을 결합해 OOD 검출 모델에서 경계 보존을 전제로 하는 연속 언러닝을 실현한다. 이 접근법은 기존 언러닝이 OOD 매니폴드에 미치는 부정적 영향을 근본적으로 해소하고, 실시간 개인정보 삭제·모델 교정 요구를 만족시키는 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기