LLM 지식 삭제를 위한 토큰‑레벨 캘리브레이션 기법 CATNIP

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 대형 언어 모델(LLM)에서 민감하거나 저작권이 있는 정보를 선택적으로 제거하는 새로운 방법인 CATNIP을 제안한다. 토큰별 모델 신뢰도를 활용해 손실을 가중하고, 역참조 정책(1‑πθ)을 동적으로 사용함으로써 기존 Gradient Ascent와 Negative Preference Optimization 방식이 초래하는 일반 지식 손실과 길이 편향 문제를 완화한다. 실험 결과 MUSE·WMDP 벤치마크에서 보존 데이터 없이도 높은 삭제 효율과 일반 지식 유지율을 달성한다.

상세 분석

CATNIP은 LLM 언어 모델을 정책 πθ 로 정의하고, “삭제하고자 하는” 입력‑출력 쌍 τ=(x,y) 를 이용해 모델이 해당 응답을 생성할 확률을 낮추는 목표를 설계한다. 핵심 아이디어는 두 가지이다. 첫째, 정적 참조 모델 πref 대신 현재 모델의 역확률 1‑πθ 를 동적 참조 정책 πβ 로 채택한다. 이는 모델이 특정 토큰에 대해 높은 확신을 가질수록 (πθ(y|x)≈1) 가중치 w_i가 크게 증가하도록 설계돼, 고신뢰 토큰에 대해 더 강한 페널티를 부여한다. 따라서 “핵심 지식”이 포함된 토큰이 집중적으로 삭제되면서 일반 지식의 비의도적 손실을 최소화한다. 둘째, 전체 시퀀스 손실을 평균화하는 기존 방식과 달리 각 토큰을 독립적인 학습 샘플로 취급해 토큰‑레벨 손실 L_CATNIP을 정의한다. 이는 길이 편향을 자연스럽게 해소하고, 짧은 문장과 긴 문장이 동일한 비중으로 학습에 기여하도록 만든다. 수식적으로는
∇L_CATNIP(θ)= (1/|y|) Σ_i w_i(β,πθ) ∇logπθ(y_i|x, y_<i)
where w_i = β·σ(β·log

LLM 지식 삭제를 위한 토큰‑레벨 캘리브레이션 기법 CATNIP

초록

상세 분석

댓글 및 학술 토론

의견 남기기