비전 트랜스포머와 확산 모델을 위한 비율 인식 레이어 편집 기반 목표 삭제 기법
초록
RAZOR는 트랜스포머 기반 비전·언어 및 확산 모델에서 특정 데이터(예: 인물, 스타일, 객체)를 효율적으로 삭제하기 위해, 레이어와 어텐션 헤드의 중요도를 ‘잊힘/보존 비율’로 평가하고, 선택된 다중 레이어를 정규화된 그래디언트 업데이트로 편집한다. 단계적 확장과 손실 설계로 삭제 정확도와 일반 성능을 동시에 유지하며, 양자화 환경에서도 안정성을 보인다.
상세 분석
RAZOR는 기존의 단일 레이어 편집(SLUG)이나 순수 그래디언트 기반 선택(SalUn, SSD)과 달리, “비율 인식”이라는 새로운 스코어링 방식을 도입한다. 각 레이어 l 에 대해 잊힘 손실 L_forget 과 보존 손실 L_retain 의 그래디언트를 각각 g_f^l 와 g_r^l 로 계산하고,
ϕ(l)=‖g_f^l‖₂ / ‖θ^l‖₂ + ε·|1‑cos(g_f^l, g_r^l)|^α
라는 식으로 두 그래디언트의 크기와 정규화된 코사인 유사도를 결합한다. 여기서 α 는 크기와 정규직교성 사이의 트레이드오프를, ε 은 수치적 안정성을 조절한다. 높은 ϕ(l)은 해당 레이어가 잊힘에 크게 기여하면서 보존에 미치는 영향이 적다는 의미이며, 이를 임계값 τ 와 비교해 편집 후보 K 를 선정한다.
선택된 레이어·헤드에 대해서는 세 가지 손실을 동시에 최적화한다.
1️⃣ L_retain 은 대칭 InfoNCE(또는 diffusion에서는 denoising loss) 형태로, retain 데이터 D_r 에 대한 이미지‑텍스트 정렬을 유지한다.
2️⃣ L_forget 은 코사인 임베딩 손실 1‑⟨v_i, t_i⟩ 을 사용해 잊혀야 할 쌍을 멀어지게 만든다.
3️⃣ L_mismatch 은 편집 전후 임베딩·유사도 차이를 정규화된 형태로 제한해 과도한 드리프트를 방지한다.
전체 목표 함수는
L_RAZOR = L_retain + λ_f ρ L_forget + λ_m L_mismatch
이며, ρ 는 잊힘·보존 비율을 조절하는 하이퍼파라미터다. 업데이트는
Δθ^l = ‑η_l
댓글 및 학술 토론
Loading comments...
의견 남기기