LLM 시대를 위한 가우스‑뉴턴 기반 기억 삭제 기법

LLM 시대를 위한 가우스‑뉴턴 기반 기억 삭제 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)에서 특정 데이터(Forget Set)를 효과적으로 삭제하면서, 유지하고자 하는 데이터(Retain Set)에서의 성능 저하를 최소화하는 새로운 방법 K‑FADE를 제안한다. K‑FADE는 Forget Set에 대한 몇 차례의 “uphill” 가우스‑뉴턴 업데이트를 수행하고, 이를 효율적으로 계산하기 위해 Kronecker‑Factored Approximate Curvature(K‑FAC)와 그 변형을 활용한다. 실험 결과 WMDP와 ToFU 벤치마크에서 출력 억제와 특이성(Specificity) 모두에서 기존 최첨단 방법을 능가함을 보이며, 추가 파인튜닝 후에도 동일한 업데이트를 재적용해 기억 삭제 효과를 저비용으로 유지할 수 있음을 입증한다.

상세 분석

이 논문은 LLM의 “잊혀야 할” 데이터가 모델 출력에 미치는 부정적 영향을 최소화하면서, “보존해야 할” 데이터에 대한 성능을 유지하는 두 가지 핵심 목표를 명시한다. 첫 번째 목표는 Forget Set에 대한 출력 억제(Output Suppression)이며, 두 번째는 Retain Set에 대한 KL‑다이버전스 제약을 통해 모델의 기존 행동을 크게 변형시키지 않는 특이성(Specificity)이다. 기존의 1차 그라디언트 기반 방법들은 작은 배치로 KL 변화를 추정해야 하므로 불안정하고, 대규모 LLM에 적용하기 어려운 단점이 있었다.

저자들은 이 문제를 “Gauss‑Newton ascent”라는 2차 최적화 기법으로 재구성한다. 구체적으로, 출력 억제 목적 L_F(θ)를 1차 근사하고, 특이성 제약을 KL‑다이버전스의 2차 테일러 전개를 통해 Gauss‑Newton 해시안 G_θ 로 근사한다. 그러면 다음과 같은 제한 최적화 문제가 된다:
 max_{δθ} L_F(θ+δθ) subject to δθᵀ G_θ δθ ≤ ε.
이 문제의 최적 해는 자연 그라디언트(또는 사전조건화된 그라디언트)인 –G_θ⁻¹∇_θ L_F(θ)와 동일하며, 이는 Gauss‑Newton 스텝에 해당한다. 실제 구현에서는 G_θ가 고차원이고 거의 특이값이 많아 직접 역행렬을 구하기 어렵기 때문에, Kronecker‑Factored Approximate Curvature(K‑FAC)와 그 변형인 EK‑FAC을 이용해 해시안을 효율적으로 근사한다. K‑FAC는 각 레이어의 가중치와 활성화 텐서를 Kronecker 곱 형태로 분해함으로써 메모리와 연산 복잡도를 크게 낮춘다.

알고리즘 K‑FADE는 다음 절차로 진행된다. (1) Forget Set에 대한 손실 L_F을 정의하고, (2) Retain Set에 대한 Fisher 정보(또는 Gauss‑Newton 해시안)를 K‑FAC으로 추정한다, (3) 해시안의 역을 적용해 자연 그라디언트를 계산하고, (4) 적절한 스텝 크기 η와 정규화(‖∇L‖_{G⁻¹})를 사용해 파라미터를 업데이트한다. 이 과정을 몇 번(보통 1~3회) 반복하면 Forget Set에 대한 출력 확률이 크게 감소하고, Retain Set에 대한 KL 변화는 매우 작게 유지된다.

실험에서는 두 가지 주요 벤치마크를 사용한다. 첫 번째는 무기 확산 프록시(WMDP)로, 위험한 내용(예: 화학·생물 무기 제작)과 일반 지식·유창성을 동시에 평가한다. K‑FADE는 출력 억제에서 기존 1차 방법보다 크게 앞서면서, MMLU·MT‑Bench 같은 일반 능력 지표에서는 손실이 최소화되었다. 두 번째는 가상의 저자 정보 삭제(ToFU) 벤치마크로, 민감한 개인 정보를 포함한 텍스트를 Forget Set에 넣고, 모델이 이를 기억하지 못하도록 하는 동시에 원본 모델과의 출력 분포 차이를 최소화한다. 여기서도 단일 Gauss‑Newton 스텝이 기존 재학습(approximate retraining) 수준의 성능을 달성했으며, Pareto frontier를 크게 앞당겼다.

또한, 저자들은 파인튜닝 후에도 동일한 K‑FADE 업데이트를 재적용함으로써 기억 삭제 효과를 저비용으로 유지할 수 있음을 실증한다. 이는 해시안 근사가 파라미터 공간 전역에 걸쳐 일정하게 적용되기 때문에, 새로운 파인튜닝 단계에서도 이전에 계산된 “삭제 방향”이 여전히 유효함을 의미한다.

한계점으로는 형식적인 보증(예: ε‑unlearning guarantee)이 없으며, 평가 지표가 모든 실사용 시나리오를 포괄하지 못한다는 점을 언급한다. 또한, 전통적인 데이터 제공자 권리 기반 “데이터 삭제” 위협 모델과는 달리, 여기서는 모델 개발자가 스스로 특정 데이터의 출력을 억제하려는 상황을 가정한다.

요약하면, K‑FADE는 Gauss‑Newton 기반의 자연 그라디언트를 K‑FAC으로 효율적으로 근사함으로써, LLM에서의 기억 삭제를 고성능·고효율로 구현한 최초의 접근법 중 하나이며, 향후 LLM 안전성·프라이버시 분야에 중요한 도구가 될 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기