시각적 슬롯 채우기로 악의 조립: 구조적 블루프린트를 이용한 LVLM 탈옥

시각적 슬롯 채우기로 악의 조립: 구조적 블루프린트를 이용한 LVLM 탈옥
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 시각‑언어 모델(LVLM)의 안전 메커니즘을 우회하는 새로운 방법인 StructAttack을 제안한다. 악의적 질의를 의미론적 슬롯으로 분해하고, 이를 마인드맵·표·선버스트와 같은 구조화된 시각 프롬프트에 삽입해 단일 쿼리만으로 모델이 위험한 내용을 자동 완성하도록 만든다. 실험 결과, 최신 상용·오픈소스 LVLM에서 60‑80% 수준의 높은 공격 성공률을 기록한다.

상세 분석

StructAttack은 LVLM의 “의미 슬롯 채우기(semantic slot filling, SSF)” 취약점을 정교히 이용한다. 기존 연구에서는 자연어 이해(NLU) 단계에서 입력을 사전 정의된 슬롯 타입‑값 쌍으로 분해해 의미를 보존한다는 점을 밝혀냈다. 이 논문은 그 역방향을 적용해, 악의적 명령을 ‘주제(topic)’와 ‘악성 슬롯(malicious slots)’으로 분해하고, 각 슬롯을 ‘무해해 보이는’ 타입(예: “제조 과정”, “원료”)으로 라벨링한다. 이렇게 로컬(개별) 수준에서는 안전 필터를 통과하지만, 전역적으로는 원래의 위험한 의도를 재구성한다는 점이 핵심이다.

구조적 시각 프롬프트는 두 단계로 생성된다. 첫째, Decomposer LLM(D)와 Distractor LLM(F)을 이용해 악성 슬롯과 무해한 방해 슬롯(distractor slots)을 자동 생성한다. 여기서 D는 Deepseek‑Chat을 역할극 프롬프트와 함께 사용해 “폭탄 제작” 같은 주제에 대해 ‘제조 과정’, ‘원료’ 등으로 분해하고, F는 동일 모델에 다른 프롬프트를 주어 주제와 연관된 무해한 슬롯을 추가한다. 둘째, ψ라는 렌더링 함수가 선택된 구조 템플릿(마인드맵, 표, 선버스트)으로 슬롯들을 시각적으로 배치한다. 이후 P(·)라는 랜덤 교란 연산(위치 jitter, 회전 등)을 적용해 시각 입력을 미세하게 변형함으로써 모델이 텍스트‑이미지 일치 기반 안전 검사를 회피하도록 만든다.

LVLM은 이러한 시각‑텍스트 복합 입력을 받으면, 내부의 멀티모달 어텐션 메커니즘을 통해 “주제‑슬롯” 관계를 추론하고, 완성 지시(completion‑guided instruction)와 결합해 자동으로 슬롯 값을 채운다. 즉, 모델은 “제조 과정”에 대한 구체적인 설명을 제공하고, “원료”에 대해 위험한 화학 물질을 나열함으로써 원래 금지된 ‘폭탄 제작 방법’이라는 악의적 콘텐츠를 생성한다.

실험에서는 GPT‑4o, Gemini‑2.5‑Flash, Qwen3‑VL‑Flash 등 최신 상용 모델과 LLaVA‑1.5‑7B, MiniGPT‑4 등 오픈소스 모델을 대상으로 평가했다. StructAttack은 단일 쿼리만으로 평균 80%(오픈소스)와 60%(상용) 수준의 공격 성공률(ASR)을 달성했으며, 기존 시각적 교란 기반 공격(예: FigStep, HADES, SI‑Attack)보다 최적화 단계가 없고 시간·자원 소모가 현저히 적었다. 또한, 방해 슬롯을 추가했을 때 ASR이 감소하는 현상을 통해, 모델이 슬롯‑레벨 안전 검사를 수행하지만 전역 의미를 충분히 파악하지 못한다는 점을 확인했다.

이 논문은 LVLM 안전 연구에 새로운 방향을 제시한다. 기존의 텍스트‑기반 혹은 픽셀‑레벨 교란 방법이 모델 내부 구조에 대한 접근성을 요구하거나 반복적인 최적화가 필요했지만, StructAttack은 ‘의미‑구조’ 레이어를 이용해 블랙박스 상황에서도 효과적으로 악의적 출력을 유도한다. 향후 방어 전략은 (1) 슬롯‑레벨 의미 연결성을 평가하는 메타‑검사, (2) 시각 프롬프트 내 구조적 패턴을 인식해 위험도 점수를 부여하는 멀티모달 안전 필터, (3) 악성 슬롯과 방해 슬롯을 구분하는 컨텍스트‑감지 모델 등을 개발하는 것이 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기