시각 토큰 압축 환경에서 대형 비전‑언어 모델의 적대적 강인성 재조명

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각 토큰 압축이 적용된 대형 비전‑언어 모델(LVLM)의 적대적 강인성을 최초로 조사한다. 기존의 인코더 기반 공격은 전체 토큰 공간에서 최적화되므로, 압축 후 남는 토큰에만 영향을 미치는 실제 상황을 과대평가한다. 이를 해결하기 위해 압축‑정렬 공격(CAGE)을 제안한다. CAGE는 (i) 기대 특성 교란(EFD)으로 압축 예산이 불확실한 상황에서도 살아남을 가능성이 높은 토큰에 교란을 집중하고, (ii) 순위 교란 정렬(RDA)으로 왜곡된 토큰이 선택 점수와 일치하도록 유도한다. 다양한 플러그‑인 압축 기법과 데이터셋에서 CAGE는 기존 공격보다 낮은 강인 정확도를 기록하며, 압축을 무시한 평가가 얼마나 낙관적인지를 입증한다.

상세 분석

본 연구는 LVLM이 실제 서비스에 투입될 때 필연적으로 마주하게 되는 시각 토큰 압축이라는 효율성 기법과, 그 과정에서 발생하는 보안 취약점을 동시에 다룬다. 기존 연구들은 주로 전체 토큰을 대상으로 하는 인코더‑기반 적대적 공격(예: VEAttack)을 사용했으며, 이는 시각 인코더만을 백박스로 가정하고 LLM은 블랙박스로 처리한다. 그러나 압축 단계가 추가되면, 공격자가 최적화한 교란이 압축 과정에서 제거될 위험이 있다. 논문은 두 가지 핵심 인사이트를 도출한다. 첫째, 압축은 “노이즈 제거”가 아니라 “왜곡 집중” 역할을 한다. 중요도 점수(예: 어텐션) 기반으로 선택된 토큰은 대부분 고왜곡 토큰이며, 압축 후에도 그대로 남아 모델의 최종 판단에 큰 영향을 미친다. 둘째, 기존 공격은 최적화‑추론 불일치(opt‑inference mismatch)를 야기한다. 공격 예산 K_attack을 전체 토큰에 할당하면, 압축 후 실제 사용되는 K_model 토큰에 대한 교란 비율이 낮아져 강인성 평가가 과대평가된다. 이를 해결하기 위해 제안된 CAGE는 압축‑정렬 공격 프레임워크로, 두 개의 상호 보완적 목표를 결합한다.
(i) 기대 특성 교란(EFD)은 배포 토큰 예산 K_model을 확률 변수로 모델링하고, 각 토큰의 생존 확률 π_i에 따라 교란을 가중한다. 이렇게 하면 “가능성 높은 토큰”에 교란이 집중돼, 압축 후에도 교란 효과가 유지된다. (ii) 순위 교란 정렬(RDA)은 선택 점수 s_i와 교란 강도 사이의 순위 분포를 매칭하는 손실을 도입한다. 구체적으로, 교란이 큰 토큰이 높은 어텐션 점수를 받도록 유도함으로써, 압축 단계에서 해당 토큰이 선택될 확률을 상승시킨다. 두 목표는 동시에 최적화되며, 압축 메커니즘을 알 필요 없이 다양한 K_model 범위에 대해 강인한 교란을 생성한다.
실험에서는 VisionZip, VisionPruner 등 다섯 가지 플러그‑인 압축 기법과 VQA, 이미지 캡션 등 세 가지 데이터셋을 사용했다. 결과는 CAGE가 기존 VEAttack 대비 평균 5~12% 낮은 강인 정확도를 보이며, 특히 토큰 예산이 작을수록(예: K=16) 차이가 크게 나타난다. 또한, 압축 예산을 정확히 맞춘 경우와 비교했을 때, CAGE는 불확실한 K_model 상황에서도 일관된 성능 저하를 달성한다. 방어 측면에서는 간단한 어텐션 정규화와 토큰 재샘플링을 시도했지만, 아직 충분히 강력한 방어책은 아니다는 결론을 내렸다.
이 논문은 LVLM의 효율성 최적화와 보안 평가가 서로 독립적으로 진행돼서는 안 된다는 중요한 교훈을 제공한다. 압축‑인식 공격 프레임워크는 향후 다양한 멀티모달 모델에 적용 가능하며, 압축‑친화적 방어 메커니즘 개발의 필요성을 강조한다.

시각 토큰 압축 환경에서 대형 비전‑언어 모델의 적대적 강인성 재조명

초록

상세 분석

댓글 및 학술 토론

의견 남기기