보편적·전이 가능한 비전‑언어 모델 탈옥 공격 UltraBreak
초록
UltraBreak은 시각 공간에서 변환과 TV 정규화를 적용해 견고한 패턴을 만들고, 텍스트 목표를 의미론적 임베딩 손실로 완화함으로써 하나의 이미지가 다양한 악의적 프롬프트와 여러 VLM에 대해 일관된 탈옥을 수행하도록 설계된 프레임워크이다. 실험 결과, 기존 그라디언트 기반 방법보다 높은 평균 성공률(ASR)을 달성하며, 단일 서브게이트 모델만으로도 높은 전이성을 보인다.
상세 분석
UltraBreak은 두 가지 핵심 아이디어에 기반한다. 첫째, 시각 최적화 공간을 제한하기 위해 무작위 회전·스케일·패치 삽입 변환과 총변동(TV) 정규화를 도입한다. 이러한 변환은 최적화가 특정 픽셀값에 과도하게 의존하지 않게 하여, 다양한 모델 구조와 입력 전처리 파이프라인에 강인한 패턴을 학습하도록 만든다. 둘째, 기존 탈옥 공격이 텍스트 토큰 수준의 교차 엔트로피 손실에 의존해 목표 문장을 정확히 맞추려다 보니 손실 지형이 급격히 변하고 과적합이 발생한다는 점을 지적한다. UltraBreak은 목표 문장을 임베딩 공간으로 투사하고, 코사인 거리 기반의 의미론적 손실을 정의한다. 여기서 목표 임베딩은 가우시안 노이즈를 더해 다수의 의미적으로 동등한 표현을 포함하도록 설계했으며, 포지션 인코딩을 활용한 어텐션 메커니즘으로 각 토큰이 미래 토큰 중 가장 관련성 높은 부분에 집중하도록 가중치를 동적으로 할당한다. 이 과정은 손실을 부드럽게 만들어 최적화가 안정적으로 수렴하도록 돕는다.
공식적으로는 서브게이트 모델 M′에 대해 L_sem = 1/T Σ_t (1 – cos(μ_t, Σ_{j≥t} w_{t,j} ẽ_j)) 형태의 손실을 최소화한다. 여기서 μ_t는 현재 토큰 예측의 기대 임베딩, ẽ_j는 노이즈가 추가된 목표 임베딩이며, w_{t,j}는 어텐션 기반 가중치이다. 변환‑정규화된 이미지 x는 매 반복마다 A(x_blank, x, l, r, s)와 같은 패치 연산을 거쳐 변형되고, γ·x+β 클리핑을 통해 값 범위를 제한한다. 최종 목표는 x* = arg min_x L_total = L_sem + λ_TV·L_TV 로 정의된다.
실험에서는 LLaVA, Qwen2.5‑VL, Gemini‑VL 등 최신 VLM을 대상으로, 10가지 악의적 프롬프트 집합에 대해 검증하였다. UltraBreak은 평균 ASR이 기존 최첨단 방법보다 12~18%p 상승했으며, 서브게이트 모델을 하나만 사용했음에도 불구하고 다른 모델에 대한 전이 성공률이 70% 이상에 달했다. Ablation 연구를 통해 변환 적용이 없을 경우 전이성이 급격히 감소하고, 의미론적 손실을 교차 엔트로피로 교체하면 손실 지형이 급격히 변해 최적화가 불안정해지는 것을 확인했다. 이러한 결과는 시각‑언어 모델의 안전성 평가에 있어 보편적·전이 가능한 탈옥 벤치마크가 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기