다중언어 다중모달 모델 안전 평가 벤치마크

다중언어 다중모달 모델 안전 평가 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Lingua‑SafetyBench는 10개 언어와 100 440개의 이미지‑텍스트 쌍으로 구성된 대규모 멀티모달 안전 벤치마크이다. 이미지‑중심 위험과 텍스트‑중심 위험을 명확히 구분해 고자원 언어와 저자원 언어에서의 위험 차이를 측정한다. 11개의 오픈소스 VLLM을 평가한 결과, 이미지‑중심 위험은 고자원 언어에서, 텍스트‑중심 위험은 저자원 언어에서 공격 성공률(ASR)이 더 높았다. 모델 규모 확대는 전반적인 안전성을 향상시키지만, 고자원 언어에만 더 큰 이점을 제공해 언어 간 격차를 확대한다.

상세 분석

본 논문은 기존 안전 벤치마크가 텍스트‑전용 혹은 단일언어·단일모달에 머물러 있다는 한계를 지적하고, 언어와 모달리티가 동시에 변하는 상황에서 VLLM의 위험을 정량화할 필요성을 강조한다. 이를 위해 저자들은 두 가지 위험 유형을 정의한다. 첫 번째인 이미지‑지배 위험(Image‑Dominant)은 시각적 콘텐츠 자체에 해로운 의미가 내포되어 있으며, 텍스트는 중립적이다. 두 번째인 텍스트‑지배 위험(Text‑Dominant)은 텍스트에만 위험이 존재하고 이미지가 배경 역할을 한다. 이러한 구분은 위험 원천을 명확히 분리함으로써, 언어 자원 수준에 따른 모델의 취약성을 정확히 파악할 수 있게 한다.

데이터 구축 과정은 세 단계로 이루어진다. (1) 영어 기반의 기본 벤치마크를 구성하고, 이미지‑지배와 텍스트‑지배 각각에 맞는 8가지 위험 시나리오를 설계한다. 여기서 이미지‑지배 샘플은 기존 MM‑SafetyBench와 VL‑Guard에서 추출한 실제 위험 이미지와, GPT‑5와 Diffusion 모델을 이용해 합성한 이미지‑텍스트 쌍을 결합한다. 텍스트‑지배 샘플은 XSAFETY와 VL‑Guard에서 확보한 위험 텍스트에 안전한 배경 이미지를 매칭한다. (2) 위험‑정렬 번역(Risk‑Aligned Translation) 전략을 적용해 10개 목표 언어(영어, 중국어, 아랍어, 프랑스어, 독일어, 일본어, 노르웨이어, 핀란드어, 러시아어, 스페인어)로 확장한다. 텍스트‑지배는 텍스트만 번역하고, 이미지‑지배는 시각적 텍스트(예: 슬로건)를 현지 스크립트로 재생성한다. (3) 인간 검증을 통해 모든 쌍이 정의된 위험 유형을 정확히 반영하는지 확인한다.

평가 프로토콜은 GPT‑5.1과 Qwen‑Guard를 자동 안전 판정기로 활용해 공격 성공률(ASR)을 측정한다. 11개의 오픈소스 VLLM(예: Gemma‑3‑12B, InternVL3.5‑8B, LLaMA‑3.2‑V‑11B, MiniCPM‑V‑4.5, Qwen2‑VL, Qwen2.5‑VL, Qwen3‑VL 등)과 세 가지 프롬프트 기반 방어 기법(DPP, Self‑Exam, XSAFETY)을 실험에 포함한다. 결과는 두드러진 비대칭성을 보여준다. 이미지‑지배 위험에서는 고자원 언어(영어·중국어)에서 ASR이 평균 55 % 수준으로 가장 높았으며, 텍스트‑지배 위험에서는 비고자원 언어(예: 핀란드어, 일본어)에서 ASR이 45 % 이상으로 급증했다. 이는 모델이 시각적 위험을 언어에 관계없이 포착하는 반면, 텍스트 위험은 언어 자원에 크게 의존한다는 점을 시사한다.

또한 Qwen 시리즈를 중심으로 규모와 버전 업그레이드가 전체 ASR을 낮추는 효과가 있었지만, 고자원 언어에 대한 개선 폭이 더 커서 언어 간 안전 격차가 확대되는 현상이 관찰되었다. 이는 단순한 파라미터 확대가 다국어 안전 정렬을 보장하지 못하고, 고자원 언어 데이터에 과도히 최적화될 위험을 내포한다는 중요한 교훈을 제공한다.

결론적으로, Lingua‑SafetyBench는 멀티모달·다중언어 안전 평가를 위한 최초의 대규모, 위험‑정렬 데이터셋이며, 언어·모달리티 별 위험 특성을 정량화함으로써 향후 VLLM 안전 정렬 연구에 필수적인 기준점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기