시맨틱 기반 계층 정렬을 활용한 전이 가능한 목표 공격

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트‑이미지 생성 모델로 만든 다중 앵커 풀을 이용해 목표 텍스트를 시각적으로 구체화하고, 중간 레이어의 시각·언어 특징을 계층적으로 정렬함으로써 다양한 블랙박스 비전‑언어 모델에 대한 목표 전이 공격의 성공률을 크게 향상시킨다.

상세 분석

SGHA‑Attack은 기존 전이 기반 목표 공격이 단일 레퍼런스와 최종 임베딩 정렬에만 의존해 서브시스템 간 차이에 취약한 점을 근본적으로 개선한다. 첫 단계인 Semantic‑Guided Anchor Injection(SGAI)에서는 고정된 텍스트‑투‑이미지(T2I) 생성 모델을 사용해 목표 텍스트 Tₜ₉ₜ에 대응하는 다수의 이미지(레퍼런스 풀)를 샘플링한다. 이후 서브시스템인 CLIP 서프라이즈 모델의 이미지 인코더 ϕ와 텍스트 인코더 ψ 사이 코사인 유사도를 기준으로 Top‑K 앵커를 선택하고, 온도 τ에 기반한 소프트맥스 가중치 wₖ를 부여한다. 이렇게 구성된 가중합 앵커 임베딩은 단일 레퍼런스보다 풍부한 시각적 변이성을 제공해 최적화 과정에서 과적합을 방지하고, 다양한 VLM 구조에 대한 일반화 능력을 높인다.

두 번째 핵심 모듈인 Hierarchical Visual Structure Alignment(HVSA)는 선택된 레이어 집합 L에 대해 각 레이어 l의 중간 특징 맵 ϕˡ을 추출한다. 앵커 이미지들의 동일 레이어 특징을 동일 가중치로 평균한 ˆFˡₐₙc를 목표로 삼아, CLS 토큰과 공간 토큰(패치) 모두에 대해 평균 풀링 후 코사인 거리 D를 최소화한다. 손실 L₍feat₎ = ∑ₗ∈L

시맨틱 기반 계층 정렬을 활용한 전이 가능한 목표 공격

초록

상세 분석

댓글 및 학술 토론

의견 남기기