CLIP 기억 삭제: 데이터‑프리 영 제로샷 클래스 언러닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 멀티모달 모델 CLIP에서 특정 클래스 정보를 이미지‑텍스트 최종 투영층에만 닫힌 형태로 제거하는 방법을 제안한다. 목표 텍스트 임베딩들의 부분공간을 정규 직교화한 뒤, 해당 방향을 이미지 임베딩에서 투영(제거)함으로써 재학습 없이 제로샷 성능을 크게 낮추면서 비목표 클래스의 지식은 유지한다. 정규화 파라미터 λ, μ를 조절해 완전 삭제와 보존 사이의 균형을 자유롭게 설정할 수 있다. 실험 결과, 기존 재학습 기반 방법에 비해 연산량이 크게 감소하고, MIA 점수와 정확도 측면에서 목표 클래스는 거의 완전히 잊혀지고 비목표 클래스는 거의 변함이 없음을 확인하였다.

상세 분석

본 연구는 CLIP과 같은 대규모 비전‑언어 모델에서 “선택적 언러닝”이라는 문제를 데이터와 재학습 없이 해결하고자 한다. 핵심 아이디어는 텍스트 임베딩 행렬 Tf (잊혀야 할 클래스)와 Tr (보존할 클래스)를 이용해 선형 변환 W 를 설계하는 것이다. 기존의 완전 널스페이스 투영 P = I − Tf(TfᵀTf)⁻¹Tfᵀ 는 Tf 가 정의하는 부분공간을 완전히 차단하지만, 실제 데이터에서는 잊혀야 할 클래스와 보존해야 할 클래스가 의미적으로 겹치는 경우가 많아 보존 정보까지 손실될 위험이 있다. 이를 보완하기 위해 논문은 다음과 같은 정규화 목적함수를 제시한다.

CLIP 기억 삭제: 데이터‑프리 영 제로샷 클래스 언러닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기