대규모 시각 언어 모델을 위한 훈련 무료 지식 벡터 약화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 시각‑언어 모델(VLM)에서 특정 데이터(Forget set)를 제거하기 위해 역전파 없이 순전파만으로 작동하는 ‘Knowledge Vector Weakening(KVW)’ 방법을 제안한다. KVW는 MLP(FFN) 모듈의 값(value) 벡터와 해당 벡터가 활성화되는 정도(knowledge coefficient)를 분석해, Forget 데이터에만 강하게 기여하는 벡터를 식별하고 지수 함수 기반 게이트로 스케일을 감소시켜 지식을 약화한다. 실험은 MLLMU‑Bench와 CLEAR 벤치마크에서 수행했으며, 기존 Gradient‑based 및 LoRA‑based 방법에 비해 유사한 망각 성능을 유지하면서 연산 시간·메모리 비용을 크게 절감한다는 결과를 보였다.

상세 분석

KVW는 기존의 “gradient‑based unlearning”이 갖는 두 가지 근본적인 한계를 극복한다. 첫째, 대규모 VLM은 수억수십억 파라미터를 보유하고 있어 역전파를 통한 미세조정은 GPU 메모리와 연산 시간에서 비현실적인 비용을 초래한다. 둘째, LoRA와 같은 파라미터 효율적 튜닝 기법은 저차원 서브스페이스에만 변화를 제한하기 때문에, 망각하고자 하는 지식이 모델 전체 표현 공간에 분산돼 있을 경우 충분히 제거하지 못한다. KVW는 이러한 문제를 회피하기 위해 “knowledge vector”라는 개념을 도입한다. Transformer 기반 모델에서 FFN(Feed‑Forward Network)은 두 개의 선형 변환(K, V)과 비선형 활성화 f(·)로 구성되며, 입력 x에 대해 f(xKᵀ)·V 형태로 동작한다. 여기서 f(xKᵀ)값은 각 키에 대한 활성화 강도를 나타내는 ‘knowledge coefficient(C)’이며, V 행렬의 각 행 vᵢ는 실제 지식 단위인 ‘knowledge vector’이다. KVW는 Forget 데이터에 대해 순전파를 수행하면서 각 레이어의 Cᶠ를 수집하고, 동일 모델에 대해 Retain 데이터로부터 Cʳ을 구한다. 두 계수를 로그 비율로 비교해 A = max(0, log(Cᶠ / Cʳ))를 정의함으로써 Forget에만 특이적으로 활성화되는 벡터를 정량적으로 식별한다. 이후, 지수 감쇠 게이트 g(A)=exp(−γ·A)를 적용해 해당 벡터를 스케일링한다. γ는 약화 강도를 조절하는 하이퍼파라미터이며, A가 클수록 더 큰 감쇠가 적용된다. 이 과정은 파라미터 자체를 직접 수정하는 것이 아니라, 순전파 중에 사용되는 V 행렬을 재구성하는 형태이므로 역전파가 전혀 필요하지 않다. 실험에서는 LLaVA‑1.5‑7B 모델을 대상으로 MLLMU‑Bench(Forget05, Forget10, Forget15)와 CLEAR(VQA) 두 벤치마크에서 KVW가 기존 Gradient Ascent(GA), Gradient Difference(GD), KL‑divergence, NPO 등과 비교해 Forget 정확도와 Retain 성능 사이의 트레이드‑오프를 가장 균형 있게 유지함을 확인했다. 특히, LoRA 기반 방법이 랭크(r) 선택에 민감하게 반응해 최적 랭크를 찾지 못하면 Forget 정확도가 급격히 악화되는 반면, KVW는 단일 γ 값만으로 일관된 성능을 제공한다. 연산 측면에서는 KVW가 순전파만 수행하므로 GPU 메모리 사용량이 기존 방법 대비 35배 감소하고, 전체 실행 시간도 60% 이상 단축된다. 이러한 결과는 “전체 모델에 대한 직접 개입”이라는 새로운 패러다임이 대규모 멀티모달 모델의 안전성 확보에 실용적인 해결책이 될 수 있음을 시사한다.

대규모 시각 언어 모델을 위한 훈련 무료 지식 벡터 약화

초록

상세 분석

댓글 및 학술 토론

의견 남기기