시각 안전을 넘어서는 이미지 생성 탈옥: 의미와 무관한 입력으로 MLLM 공격
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)의 시각 안전 방어를 우회하기 위해 “재구성‑후‑생성” 전략을 제안한다. 악의적 텍스트를 이미지‑텍스트 쌍으로 변환하고, 해당 이미지를 중립 이미지와 섞어 의미적 연관성을 흐린 뒤, 특수한 중국어 유도 프롬프트와 결합한다. 실험 결과, GPT‑5(2026‑01‑12) 모델에 대해 98.21%의 탈옥 성공률을 기록하며 현재 시각 안전 정렬 메커니즘의 취약점을 드러낸다.
상세 분석
본 연구는 기존 텍스트‑중심 탈옥 기법이 시각 모달을 충분히 탐색하지 못했다는 점을 지적하고, 이미지‑텍스트 쌍을 활용한 새로운 공격 프레임워크 BVS( Beyond Visual Safety)를 설계하였다. 핵심 아이디어는 악의적 프롬프트를 텍스트‑투‑이미지 모델(CogView4‑6B)으로 변환해 “악의적 유도 이미지” I_A를 생성한 뒤, 이를 4개의 패치로 분할하고 무작위 섞는다. 이후 MIDOS(Multi‑Image Distance Optimization Selection) 알고리즘을 통해 중립 이미지 데이터베이스(N_er)에서 5개의 패치를 선택해 I_A 패치 사이에 삽입, 3×3 격자 형태의 “중립화된 복합 이미지” I_S를 만든다.
MIDOS는 두 가지 메트릭을 최적화한다. 첫째, 중앙 패치와 원본 악의적 이미지 사이의 의미 거리 D_se를 최대화해 전역적인 의미 격차를 확보한다. 둘째, 인접 패치 간의 최소 퍼셉추얼 디소넌스(LP D_se)를 최소화해 인간 눈으로는 자연스러운 이미지처럼 보이게 만든다. 이 과정은 “주의 분산 가설(Distraction Hypothesis)”에 기반해, 모델의 시각 인코더가 악의적 패치를 즉시 인식하지 못하고, 전역적인 의미 연결을 놓치게 만든다.
그 다음 단계는 특수한 중국어 유도 프롬프트를 사용해 MLLM에게 I_S를 3×3 매트릭스로 해석하도록 지시한다. 프롬프트는 a_11, a_13, a_31, a_33 위치에 해당하는 패치를 “의미적으로 일관된 이미지”로 재구성하도록 요구하고, 재구성된 내부 표현을 기반으로 새로운 이미지를 생성하도록 강제한다. 이때 악의적 의도는 입력 단계에서는 은폐되지만, 모델 내부의 잠재 공간에서 재구성 과정 중에 폭발적으로 드러난다.
실험 설계는 크게 두 부분으로 나뉜다. 1) 악의적 프롬프트 110개를 수집·강화해 모두 GPT‑5가 직접 거부하도록 검증하였다. 2) 중립 이미지 25장을 선정해 MIDOS 기반 스풀링을 수행하고, 두 비교 대상(Perception‑Guided, Chain‑of‑Jailbreak)과 비교하였다. 평가자는 Doubao‑1.5‑Pro와 Qwen2.5‑VL 두 독립적인 비전 모델을 사용해 결과 이미지를 “금지된” 혹은 “무해한”으로 라벨링했다. BVS는 98.21%의 성공률을 기록했으며, 기존 방법은 각각 62%와 71% 수준에 머물렀다.
기술적 기여는 다음과 같다. (1) 시각 안전을 평가하기 위한 전용 벤치마크 데이터셋을 공개하고, (2) 의미적 중립화와 거리 최적화를 결합한 MIDOS 알고리즘을 제안, (3) “재구성‑후‑생성” 패턴을 통해 입력‑단계 방어를 회피하는 새로운 탈옥 흐름을 제시했다.
하지만 몇 가지 한계도 존재한다. 첫째, 중립 이미지 데이터가 25장에 불과해 실제 배포 환경에서 다양성을 확보하기 어렵다. 둘째, 공격이 중국어 프롬프트에 의존하므로 언어적 제약이 있다; 다른 언어로 동일한 효과를 얻을 수 있는지 검증이 필요하다. 셋째, 실험은 GPT‑5 하나의 모델에만 국한돼 있어 다른 MLLM(예: LLaVA, Gemini)에서의 일반화 가능성을 확인하지 못했다. 마지막으로, 논문이 공개된 코드와 데이터가 악용될 위험을 내포하고 있어, 책임 있는 공개와 방어 연구가 병행돼야 한다는 윤리적 논의가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기