기울기 상승 없이 기억을 지우다 모델 외삽을 통한 머신 언러닝
초록
본 논문은 기존 머신 언러닝에서 사용되는 손실을 최대화하는 기울기 상승(GA) 방식이 모델 붕괴와 성능 저하를 초래한다는 문제점을 지적하고, 원본 모델을 기준으로 잊고자 하는 데이터에 대해 기억을 강화한 뒤, 그 기억 모델을 원본 모델 방향으로 외삽(extrapolation)함으로써 안전하고 안정적인 “잊기”를 구현하는 MOX(Model Extrapolation) 방법을 제안한다.
상세 분석
논문은 먼저 대규모 언어 모델(LLM)에서 민감 데이터 삭제를 목표로 하는 머신 언러닝(MU)의 현황을 정리한다. 기존 접근법은 잊고자 하는 데이터 집합(F)만을 대상으로 손실을 최대화하는 기울기 상승(GA) 혹은 GA와 손실 재가중치를 결합한 변형들을 사용한다. 그러나 GA는 손실이 무한히 커질 수 있는 비경계성 문제와, 학습 과정에서 모델 파라미터가 원래의 사전학습 지점에서 급격히 벗어나면서 ‘catastrophic collapse’라 불리는 현상이 발생한다. 이는 모델이 특정 토큰에 과도하게 확신을 갖게 되어 전체적인 일반화 성능이 급격히 저하되는 결과를 낳는다.
이에 저자들은 “기울기 상승이 정말 필요한가?”라는 근본적인 질문을 제기하고, 대신 **기울기 하강(GD)**을 이용해 잊고자 하는 데이터에 대한 **기억(memorization)**을 강화한다. 구체적으로, 원본 모델 θ_ref를 기준으로 잊고자 하는 데이터에 대해 교차 엔트로피 손실을 최소화하고, 동시에 유지 데이터(D_R)에 대해 KL 발산을 최소화하는 두 개의 손실을 결합한다. 이렇게 얻어진 파라미터 θ_mem은 잊고자 하는 데이터에 과도하게 적합하면서도 유지 데이터에 대한 예측은 원본 모델과 거의 동일하게 유지한다.
핵심 아이디어는 **모델 외삽(Model Extrapolation, MOX)**이다. θ_mem과 θ_ref 사이의 차이 벡터 Δ = θ_ref − θ_mem을 스칼라 α 배만큼 확대하여 원본 모델 쪽으로 다시 이동시킨다:
θ_for = (1 + α) θ_ref − α θ_mem = θ_ref + α Δ.
Δ는 “기억” 방향이므로, 이를 반대로 확대하면 “잊기” 효과가 발생한다. 이 과정은 선형 근사 가정 하에 이루어지며, 신경망의 지역적 선형성(Neural Tangent Kernel) 이론을 통해 정당화된다.
MOX는 다음과 같은 장점을 가진다. 첫째, 학습 전 과정에서 오직 GD만 사용하므로 GA가 야기하는 불안정성과 붕괴를 회피한다. 둘째, 외삽 단계는 단순한 파라미터 연산이므로 계산 비용이 거의 없으며, α 값을 조절함으로써 잊기 강도를 미세하게 제어할 수 있다. 셋째, 목표가 있는 타깃 언러닝에도 동일한 프레임워크를 적용할 수 있도록, 목표 라벨 ỹ 에 대한 교차 엔트로피 손실을 추가한다.
실험에서는 TOFU와 MUSE 두 벤치마크를 사용해 Llama‑2‑7B와 Phi‑1.5B 모델에 MOX를 적용하였다. 결과는 기존 GA 기반 방법들에 비해 **잊기 품질(FQ)**이 크게 향상되고, **모델 유틸리티(MU)**는 거의 유지되며, **잊기 손실(F‑RL)**과 유지 손실(R‑RL) 지표에서도 우수함을 보였다. 특히 α를 적절히 크게 설정하면 GA가 초래하는 급격한 성능 붕괴 없이도 높은 FQ를 달성한다. 또한, 모멘텀 외삽(역사적 가중치 평균) 기법을 도입하면 일반화와 안정성이 추가로 개선된다.
이 논문은 “기울기 상승이 반드시 필요한가?”라는 질문에 부정적인 답을 제시하고, 기억‑잊기 역학을 선형 벡터 연산으로 재구성함으로써 머신 언러닝의 실용성을 크게 높였다. 향후 연구에서는 비선형 외삽, 다중 단계 기억‑잊기 순환, 그리고 실제 서비스 환경에서의 실시간 언러닝 적용 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기