대형 비전‑언어 모델을 겨냥한 인코더 기반 적대적 전이성 강화 방안
초록
본 논문은 인코더 기반 적대적 공격이 대형 비전‑언어 모델(LVLM) 간에 전이되기 어려운 원인을 체계적으로 분석하고, 시멘틱 가이드 멀티모달 공격(SGMA) 프레임워크를 제안한다. 실험 결과 SGMA가 기존 공격보다 훨씬 높은 전이 성공률을 보이며, 다양한 LVLM과 멀티모달 태스크에서 보안 위험성을 부각한다.
상세 분석
이 연구는 LVLM의 구조적 이질성—시각 인코더, 모달리티 프로젝터, 대형 언어 모델(LM) 세 부분—이 적대적 전이성을 크게 저해한다는 점을 명확히 밝힌다. 기존 인코더 기반 공격은 서브시투레(예: CLIP ViT‑L/14)의 시각 인코더에만 최적화하고, 이를 다른 LVLM에 그대로 적용한다. 그러나 실험 1에서 8개의 서로 다른 LVLM에 대해 전이 성공률(ASR)이 5%에서 99%까지 크게 차이 나는 것을 확인했다. 두 가지 근본 원인이 제시된다. 첫째, 시각 그라운딩 불일치이다. 서로 다른 인코더는 동일 이미지에 대해 주목 영역이 크게 달라, 서브시투레에서 만든 교란이 타 모델에서는 무시되거나 배경에만 영향을 미친다. 시각화(Attention map, Patch‑level heatmap)에서 이러한 현상이 명확히 드러난다. 둘째, 중복된 시멘틱 정렬이다. 하나의 객체가 여러 토큰에 겹쳐서 매핑되므로, 일부 토큰만 교란해도 나머지 토큰이 정상적인 정보를 전달한다. 기존 공격은 전체 토큰을 고르게 교란하지 못해, 언어 모듈에 도달하는 임베딩 변동이 충분히 크지 않다.
이 두 원인을 해결하기 위해 제안된 SGMA는 두 단계로 구성된다. ① **시멘틱 관련 교란(Semantic Relevance Perturbation)**은 이미지‑텍스트 정합성을 이용해, 명사구와 직접 매핑되는 패치를 우선적으로 교란한다. 이를 위해 CLIP 텍스트 인코더로부터 추출한 noun‑phrase attention을 가중치로 사용해, 전역적인 시각 그라운딩을 일관되게 만든다. ② **시멘틱 그라운딩 파괴(Semantic Grounding Disruption)**는 (a) 전역 레벨에서 전체 이미지 임베딩을 클린 임베딩과 거리 멀어지게 하는 손실을 추가하고, (b) 지역 레벨에서 noun‑phrase에 해당하는 패치를 밀집하게 교란한다. 이렇게 하면 중복 토큰 전체가 동시에 변형되어, 언어 모델에 전달되는 시각 정보가 크게 왜곡된다.
실험에서는 이미지 캡션, 시각 질문 응답(VQA), 이미지 분류 등 세 가지 멀티모달 태스크에 대해 SGMA와 기존 4가지 공격(엔드‑투‑엔드, Cui, Attack‑Bard, VT‑Attack)을 비교했다. 모든 LVLM(오픈소스 6종, 상용 2종)에서 SGMA는 평균 ASR을 18%~27%p 상승시켰으며, 특히 GPT‑4o와 Gemini 2.0 Flash 같은 고성능 모델에서도 11%→31% 수준으로 전이성을 크게 개선했다. 시각적 품질(PSNR, SSIM)도 기존 공격과 동등하거나 약간 우수했다. 또한 SGMA는 목표 텍스트를 지정하는 타깃 공격에도 자연스럽게 확장 가능함을 보였다.
이 논문은 LVLM 보안 연구에 두 가지 중요한 시사점을 제공한다. 첫째, 인코더 기반 전이성을 단순히 “같은 인코더” 가정에 의존해서는 안 되며, 시각‑언어 정합성을 고려한 교란 설계가 필요하다. 둘째, 현재의 방어 메커니즘(예: 입력 정규화, 랜덤화)은 시멘틱 레벨에서의 교란을 막기 어렵기 때문에, 보다 근본적인 멀티모달 방어 전략이 요구된다. SGMA가 제시한 “시멘틱 중심 교란” 아이디어는 향후 방어 설계와 공격 연구 모두에 중요한 출발점이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기