이미지는 말보다 강한가? VLM의 텍스트 허위정보 취약성 조사

이미지는 말보다 강한가? VLM의 텍스트 허위정보 취약성 조사
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각‑언어 모델(VLM)이 시각적 근거와 모순되는 설득성 텍스트에 얼마나 취약한지를 평가한다. 이미지‑질문 쌍에 대해 고의로 시각 증거와 충돌하는 설득형 프롬프트를 생성한 CONTEXT‑VQA 데이터셋을 구축하고, 11개 최신 VLM을 다중 라운드 대화 방식으로 시험한다. 실험 결과, 텍스트 허위정보가 한 번 제시될 뿐이라도 평균 정확도가 48.2% 이상 급락했으며, 특히 감정·신뢰도 호소가 가장 큰 영향을 미쳤다. 연구는 VLM이 시각 정보를 충분히 활용하지 못하고 텍스트에 과도하게 의존한다는 한계를 지적한다.

상세 분석

이 연구는 VLM의 멀티모달 추론 과정에서 텍스트와 이미지 사이의 신뢰도 조정 메커니즘이 미비함을 실증적으로 보여준다. 먼저, 기존 A‑OKVQA 데이터셋을 기반으로 2,000개의 이미지‑질문 쌍을 샘플링하고, 11개 모델이 모두 100% 정확도를 보인 920개의 ‘공통 정답’ 서브셋을 추출한다. 이는 텍스트 조작 전후의 성능 변화를 순수히 텍스트 요인에 귀속시킬 수 있는 엄격한 통제조건이다.

허위정보 생성 단계에서는 ‘타깃(T)’ 선택, 즉 두 번째로 높은 평균 신뢰도를 가진 오답을 비사실(NF)로 설정하고, 네 가지 설득 전략(반복, 논리, 신뢰도, 감정)을 템플릿화한다. Gemini 2.5‑Pro 모델을 활용해 각 전략별로 자연스럽고 설득력 있는 프롬프트를 자동 생성하고, 인간 검증을 거쳐 품질을 확보한다. 이렇게 만든 CONTEXT‑VQA는 이미지‑질문에 추가적인 텍스트 입력을 결합한 형태로, 모델에게 ‘시각적 근거와 모순되는 설득문’을 제공한다.

평가 프레임워크는 세 단계로 구성된다. ① 초기 베이스라인 측정으로 모든 모델이 100% 정확도를 기록한다. ② 다중 라운드 대화 단계에서 각 라운드마다 이전 대화 기록을 모두 포함한 상태로 새로운 설득문을 제시한다. 이는 실제 대화형 시스템에서 사용자가 지속적으로 잘못된 정보를 제공할 경우를 모사한다. ③ 최종 검증 단계에서 최종 정확도와 정답·오답에 대한 신뢰도 변화를 기록한다.

실험 결과, 모델별·전략별 평균 정확도는 크게 차이가 난다. 감정 호소 전략은 대부분의 모델에서 55%~80% 수준으로 가장 큰 성능 저하를 일으켰으며, 논리·신뢰도 전략도 40% 이상 감소시켰다. 특히 오픈소스 모델 Qwen‑VL‑2.5‑3B는 반복 전략에서 20% 이하로 급락했으며, GPT‑4o‑mini와 같은 최신 폐쇄형 모델도 16% 수준으로 크게 흔들렸다. 흥미롭게도 Gemini‑2.5‑Pro는 논리·신뢰도 전략에서 90% 이상 정확도를 유지했지만, 감정 전략에서는 84%로 떨어졌다. 이는 모델의 사전 학습 데이터와 설계가 감정적 언어에 더 민감하게 반응한다는 점을 시사한다.

또한, 다중 라운드 실험에서 초기 한 번의 설득만으로도 모델의 신뢰도가 크게 재조정되며, 이후 라운드에서는 기존 오류를 강화하거나 새로운 오류를 도입하는 경향이 관찰되었다. 이는 VLM이 ‘한 번의 설득을 기억’하고 이를 기반으로 추론을 진행한다는 점에서, 지속적인 텍스트 공격에 대한 방어 메커니즘이 부재함을 의미한다.

한계점으로는 데이터셋이 MCQ 형식에 국한돼 실제 자유형 VQA 시나리오와 차이가 있을 수 있으며, 설득 프롬프트가 Gemini 2.5‑Pro에 의해 생성된 점에서 모델 편향이 전이될 가능성이 있다. 또한, 시각적 증거가 명확히 드러나는 이미지에만 초점을 맞추었기 때문에, 복잡한 장면이나 추상적 이미지에 대한 일반화는 검증되지 않았다.

이 연구는 VLM 개발 시 텍스트와 이미지 간 신뢰도 조정, 텍스트 기반 공격 방어, 그리고 멀티모달 정합성 검증 메커니즘이 필수적임을 강조한다. 향후 연구는 이미지‑텍스트 정합성 검증을 위한 교차‑모달 어텐션 강화, 텍스트 공격에 대한 적대적 학습, 그리고 인간‑기계 협업을 통한 오류 검출 프레임워크 구축을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기