Holmes 개인화 대형 비전 모델 무해한 소유권 검증

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 파인튜닝된 대형 비전 모델(LVM)의 소유권을 안전하게 검증하기 위해, 공통 특징을 분리하고 데이터셋‑특정 특징만을 활용하는 세 단계(섀도우 모델 생성, 메타‑분류기 학습, 가설 검정) 방식을 제안한다. 기존 워터마킹 방식이 모델 신뢰성을 해치는 문제를 피하면서도, 다양한 모델 스틸링 공격에 대해 높은 탐지 정확도를 보인다.

상세 분석

Holmes는 “공통 특징(Common Features)”과 “데이터셋‑특정 특징(Dataset‑Specific Features)”을 명확히 구분한다는 점에서 기존 모델 지문(Fingerprinting) 연구와 차별화된다. 파인튜닝된 LVM은 사전학습된 거대한 기반 모델이 이미 풍부한 일반화 특성을 보유하고 있기 때문에, 단순히 모델의 전체 출력이나 결정 경계를 이용한 기존 지문 방식은 서로 유사한 데이터셋을 사용한 모델 간 오판(mis‑judgment) 위험이 크다. Holmes는 이를 해결하기 위해 두 종류의 섀도우 모델을 만든다. 첫 번째인 “독성 섀도우( Poisoned Shadow)”는 피해 모델이 가장 잘 학습한(손실이 가장 낮은) 개인화 샘플에 라벨 불일치 백도어(예: BadNets)를 삽입해 데이터셋‑특정 특징을 의도적으로 파괴한다. 이 과정에서 모델이 공통 특징은 유지하도록 설계되어, 독성 섀도우와 원본 모델 사이의 출력 차이(Output Difference, OD)만으로 데이터셋‑특정 정보를 추출할 수 있다. 두 번째인 “양성 섀도우(Benign Shadow)”는 동일한 기반 모델을 사용하되, 피해 모델이 잘 학습한 샘플을 제외하고 파인튜닝함으로써, 공통 특징은 동일하지만 데이터셋‑특정 특징은 서로 다른 모델을 만든다. 양성 섀도우와 독성 섀도우 사이의 OD는 “공통 특징만”을 반영한다. 이렇게 두 OD를 입력으로 메타‑분류기(이진 분류기)를 학습시키면, (1) 피해 모델이 보유한 데이터셋‑특정 특징을 포착하고, (2) 독립적인 모델이 공통 특징만을 가지고 있을 때 발생하는 오판을 억제한다. 최종 검증 단계에서는 메타‑분류기의 출력에 대해 가설 검정(Hypothesis Test)을 수행해 통계적 유의성을 확보한다. 이는 단일 추론에 의존하는 기존 방법보다 랜덤성에 강인하며, 여러 스틸링 시나리오(파라미터 복제, 지식 증류, 데이터‑프리 증류 등)에 대해 일관된 탐지 성능을 제공한다. 실험 결과, CLIP, BEiT 등 최신 LVM을 대상으로 다양한 베이스라인(워터마크, 기존 지문, 활성 방어)과 비교했을 때, Holmes는 평균 5~10% 높은 정확도와 낮은 오탐률을 기록한다. 또한, 코드 공개와 재현 가능성을 강조해 실무 적용 가능성을 높였다.

Holmes 개인화 대형 비전 모델 무해한 소유권 검증

초록

상세 분석

댓글 및 학술 토론

의견 남기기