멀티모달 LLM을 속이는 이미지 생성 기법 GHOST
초록
GHOST는 이미지 임베딩을 최적화해 대상 객체가 없는 상태에서 멀티모달 대형 언어 모델(MLLM)이 해당 객체를 존재한다고 착각하도록 유도하는 자동화된 이미지 생성 파이프라인이다. CLIP 임베딩을 조정하고 diffusion 모델로 자연스러운 이미지를 복원함으로써 28% 이상의 hallucination 성공률을 달성하고, 다른 모델에도 전이 가능한 취약점을 밝혀낸다. 또한 생성된 이미지로 미세조정을 하면 모델의 hallucination 저항성이 향상된다.
상세 분석
본 논문은 멀티모달 LLM이 겪는 “객체 환각(object hallucination)” 문제를 정량적·정성적으로 파악하기 위해 정적인 벤치마크가 아닌, 모델 자체를 공격 대상으로 하는 동적 이미지 생성 방법을 제안한다. 핵심 아이디어는 세 단계로 구성된다. 첫째, 목표 객체가 존재하지 않는 원본 이미지에 대해 CLIP 이미지 임베딩을 추출한다. 둘째, 이 임베딩을 “스텔스 토큰”이라 부르는 잠재 변수 c로 변형시키는데, 변형 과정에서 (1) 원본 임베딩과의 L2 거리 최소화로 시각적 유사성을 유지하고, (2) 목표 객체 텍스트 템플릿과의 코사인 유사도를 최소화해 객체 의미가 직접 삽입되지 않도록 억제하며, (3) MLLM이 “Yes” 토큰을 높은 확률로 출력하도록 하는 역전파 기반 손실 L_adv를 최소화한다. 세 손실을 가중치 λ_clip, λ_reg 로 조합한 총합 손실 L_total을 AdamW 로 최적화한다. 셋째, 최적화된 임베딩 c를 조건으로 Stable Diffusion unCLIP을 사용해 이미지를 재생성한다. 여기서는 원본 이미지의 잠재를 부분적으로 노이즈화한 뒤 역전파 과정에 c를 주입함으로써, 구조는 보존하면서도 미세한 의미적 변형—예를 들어 바나나 줄기를 칼날 모양으로 변형—을 삽입한다. 생성된 이미지에 대해 (a) OWLv2 객체 탐지기로 실제 목표 객체가 존재하지 않는지 확인하고, (b) MLLM이 환각을 일으키는지 검증한다. 성공적인 경우를 “hallucination‑inducing 이미지”라 정의한다.
실험에서는 Qwen2.5‑VL, GLM‑4.1V‑Thinking, GPT‑4o 등 최신 멀티모달 모델 5종에 대해 9,423개의 원본 이미지에 GHOST를 적용했으며, Qwen2.5‑VL 기준 29%의 성공률을 기록했다. 이는 기존 데이터‑드리븐 탐색 방법(DASH)의 0.1%에 비해 2~3 orders of magnitude 높은 수치다. 또한 한 모델용으로 최적화된 이미지가 다른 모델에서도 66.5%의 환각을 유발하는 전이성을 보였으며, 이는 모델 아키텍처와 학습 데이터에 공통된 스파이시한 시각‑언어 상관관계가 존재함을 시사한다. 이미지 품질 평가는 FID와 인간 평가(89%가 객체 부재를 인지)로 검증했으며, 생성된 이미지가 시각적으로 자연스럽고 인간에게는 오인되지 않음을 확인했다. 마지막으로, GHOST 이미지로 미세조정한 후에는 기존 hallucination 벤치마크에서 오류율이 평균 12%p 감소하는 등 실질적인 완화 효과를 보였다.
이 논문의 주요 공헌은 (1) MLLM 피드백을 직접 활용해 임베딩 수준에서 목표 객체를 은밀히 삽입하는 효율적 최적화 프레임워크, (2) diffusion 모델과의 디코딩 과정을 분리해 연산 비용을 크게 절감하면서도 고품질 이미지를 생성하는 설계, (3) 모델‑특이적이면서도 전이 가능한 취약점 지도 제공, (4) 생성된 이미지가 방어 데이터로 활용될 수 있음을 실증한 점이다. 한계로는 CLIP 기반 임베딩 정규화에 의존하기 때문에 CLIP 자체의 편향이 전이될 가능성이 있고, 현재는 “객체 존재 여부” 질문에 국한된 평가만 수행했으며, 보다 복합적인 시나리오(예: 다중 객체, 관계 추론)에는 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기