세밀한 디테일 목표로 하는 블랙박스 LVLM 공격의 최전선

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 M‑Attack 의 지역 매칭 방식이 변환 민감성 및 비대칭성으로 인해 그래디언트가 거의 직교되는 고분산 문제를 일으킨다는 점을 규명한다. 이를 해결하기 위해 다중 크롭 평균화와 보조 타깃 정렬, 패치 모멘텀 및 패치 앙상블을 결합한 M‑Attack‑V2 를 제안한다. 제안 방법은 그래디언트 분산을 크게 감소시켜 최신 상용 LVLM 모델인 Claude‑4, Gemini‑2.5‑Pro, GPT‑5 에 대한 공격 성공률을 각각 크게 향상시킨다.

상세 분석

M‑Attack 은 소스 이미지와 타깃 이미지의 로컬 크롭을 매칭하여 전이 기반 블랙박스 공격을 수행한다. 그러나 비전 트랜스포머는 픽셀 수준의 미세 이동에 매우 민감하여 토큰 구성이 바뀌면 전체 어텐션 흐름이 달라지고 결과적으로 그래디언트가 급격히 변한다. 실험에서 동일한 이미지 영역을 공유하는 두 크롭 사이의 그래디언트 코사인 유사도가 거의 0 에 수렴함을 확인하였다. 이러한 현상은 ( i ) 트랜스포머의 번역 민감성에 의한 스파이크형 그래디언트와 ( ii ) 소스와 타깃 크롭이 각각 픽셀 공간과 임베딩 공간에서 서로 다른 역할을 수행하는 비대칭 구조에서 비롯된다. 저자는 이를 비대칭 기대값 형태로 재정의하고, 두 가지 주요 변형을 도입한다. 첫째, 다중 크롭 정렬(Multi‑Crop Alignment, MCA)은 한 번의 업데이트에서 K 개의 독립적인 로컬 뷰를 샘플링하고 각각의 그래디언트를 평균함으로써 분산을 1/K 로 감소시킨다. 이때 각 크롭 간의 상관관계가 거의 없으므로 평균화 효과가 크게 나타난다. 둘째, 보조 타깃 정렬(Auxiliary Target Alignment, ATA)은 원본 타깃 이미지와 의미적으로 유사한 보조 이미지 집합을 미세 변환과 함께 사용하여 타깃 임베딩의 변동성을 크게 낮춘다. 이는 탐색‑활용 트레이드오프를 완화하고, 그래디언트가 보다 일관된 방향을 가리키게 만든다. 추가로 저자는 패치 모멘텀(Patch Momentum)을 도입해 과거 크롭의 그래디언트를 재활용하고, 다양한 패치 크기의 모델 앙상블(PE+)을 통해 전이 가능한 방향을 강화한다. 이 모든 모듈은 서로 독립적이며 기존 M‑Attack 에 간단히 플러그인 형태로 적용 가능하다. 실험 결과는 MCA 로 그래디언트 코사인 유사도가 0 에서 약 0.2 로 상승하고, ATA 로 타깃 임베딩 드리프트가 이론적 상한 이하로 억제됨을 보여준다. 최종적으로 M‑Attack‑V2 는 Claude‑4 에 대한 성공률을 팔 퍼센트에서 삼십 퍼센트로, Gemini‑2.5‑Pro 에서는 팔십삼 퍼센트에서 구십칠 퍼센트로, GPT‑5 에서는 구십팔 퍼센트에서 백 퍼센트로 크게 향상시킨다.

세밀한 디테일 목표로 하는 블랙박스 LVLM 공격의 최전선

초록

상세 분석

댓글 및 학술 토론

의견 남기기