옵티마이저 다운그레이드가 LLM 언러닝 견고성을 높인다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 언러닝 과정에서 사용되는 옵티마이저의 “등급”(zeroth‑order, first‑order, second‑order)이 언러닝의 견고성에 미치는 영향을 체계적으로 조사한다. 의외로 저차원(zeroth‑order) 혹은 압축된 gradient(gradient‑sign) 옵티마이저를 사용할 때, 모델이 더 난이도 높은 손실 지형의 베이스에 수렴해 사후 가중치 양자화나 재학습 공격에 강해진다. 이를 바탕으로 FO와 ZO 업데이트를 결합한 하이브리드 옵티마이저를 제안하고, MUSE·WMDP 벤치마크에서 기존 방법 대비 언러닝 효과와 견고성을 동시에 향상시킴을 실증한다.

상세 분석

이 연구는 LLM 언러닝의 취약점이 주로 사후 가중치 변형(양자화, 재학습 공격)에서 발생한다는 점에 주목한다. 기존 접근법은 목표 함수 자체를 변형하거나, min‑max 형식의 로버스트 최적화, 메타‑학습 등으로 방어를 시도했지만, 옵티마이저 자체가 견고성에 미치는 영향은 거의 다루지 않았다. 논문은 “옵티마이저 등급”이라는 개념을 도입한다. zeroth‑order(gradient‑free) 옵티마이저는 함수값만을 이용해 유한 차분으로 기울기를 추정하므로, 노이즈가 많고 업데이트가 거칠다. first‑order 옵티마이저는 정확한 gradient를 사용하고, second‑order는 Hessian 정보를 활용한다. 저차원 옵티마이저는 업데이트가 불확실하고, 따라서 최적화 경로가 손실 표면의 넓고 평탄한 영역, 즉 “hard‑to‑disturb” 베이스에 머무르게 된다. 이러한 베이스는 작은 가중치 변동에 대해 손실이 급격히 변하지 않아, 양자화나 재학습에 의해 원래의 기억이 복원되는 위험을 감소시킨다.

또한, 논문은 zeroth‑order 방법을 랜덤 스무딩(randomized smoothing)과 연결한다. 랜덤 스무딩은 입력에 가우시안 노이즈를 추가해 함수값을 평균화함으로써 모델을 L2‑볼에 대해 견고하게 만든다. 여기서 ZO 업데이트는 실제로 파라미터 공간에 무작위 샘플을 취해 손실을 평가하고, 그 차분을 gradient로 사용하므로, 자연스럽게 파라미터에 대한 스무딩 효과를 제공한다. 따라서 ZO 기반 언러닝은 “노이즈‑내성”을 내재적으로 갖게 된다.

실험에서는 Sophia(2차), Adam(1차), 8‑bit Adam, 1‑bit Adam(gradient‑sign) 등 다양한 옵티마이저를 동일한 언러닝 목표(NPO, GradDiff 등)에 적용했다. 결과는 4‑bit 양자화 후에도 zeroth‑order 혹은 1‑bit Adam이 가장 낮은 VerbMem·KnowMem을 유지했으며, 재학습 공격에서도 복원률이 현저히 낮았다. 이는 “옵티마이저 등급이 낮을수록 견고성이 높다”는 가설을 실증한다.

마지막으로, FO와 ZO를 결합한 하이브리드 옵티마이저를 설계했다. 기본적으로 FO 업데이트로 빠른 수렴을 확보하고, 일정 주기마다 ZO 업데이트를 삽입해 파라미터를 스무딩한다. 이 방법은 FO의 효율성과 ZO의 견고성을 동시에 얻어, 언러닝 효과는 유지하면서 양자화·재학습에 대한 저항성을 크게 향상시켰다.

핵심 인사이트는 다음과 같다. 1) 옵티마이저의 정보 활용 수준이 언러닝 후 모델의 손실 지형 위치를 결정한다. 2) 저차원 옵티마이저는 노이즈를 의도적으로 도입해 “hard‑to‑disturb” 베이스에 머무르게 함으로써 사후 변형에 강해진다. 3) ZO와 gradient‑sign 기반 옵티마이저는 랜덤 스무딩과 유사한 효과를 제공해 로버스트 언러닝을 자연스럽게 구현한다. 4) FO‑ZO 하이브리드 설계는 실용적인 성능 저하 없이 견고성을 크게 개선한다.

옵티마이저 다운그레이드가 LLM 언러닝 견고성을 높인다

초록

상세 분석

댓글 및 학술 토론

의견 남기기