시각‑언어 모델 안전 판단을 유도하는 의미 단서
본 논문은 시각‑언어 모델(VLM)의 안전 판단이 시각적 내용보다 텍스트·시각적 의미 단서에 얼마나 좌우되는지를 조사한다. 텍스트, 시각, 인지적 3가지 조작을 통해 위험 인식을 유도하거나 오도할 수 있음을 보이며, 이를 평가하기 위한 SAVeS 벤치마크와 행동·근거·오판률을 측정하는 프로토콜을 제안한다. 실험 결과, 단순한 색상 마커나 프롬프트만으로도 모델의 안전 응답이 크게 변하며, 자동화된 파이프라인이 이를 악용할 수 있음을 확인한다.
저자: Carlos Hinojosa, Clemens Grange, Bernard Ghanem
본 논문은 시각‑언어 모델(VLM)이 실제 환경에서 안전 판단을 수행할 때, 어떤 시각적 근거를 활용하는지에 대한 근본적인 질문을 제기한다. 기존 연구는 모델이 위험한 명령을 거부하도록 훈련하거나, 위험 감지를 위한 별도 모듈을 추가하는 데 초점을 맞추었지만, 모델이 실제로 시각 정보를 얼마나 ‘이해’하고 있는지는 충분히 검증되지 않았다. 이를 해결하기 위해 저자는 “시맨틱 스티어링”이라는 프레임워크를 고안했다. 이 프레임워크는 **텍스트 스티어링**, **시각 스티어링**, **인지 스티어링**이라는 세 가지 독립적인 개입 방식을 제공한다. 각각은 이미지, 질문 텍스트, 혹은 질문 자체를 변형함으로써 모델의 주의를 특정 의미 단서에 집중시키거나 오도한다. 예를 들어, 시각 스티어링에서는 이미지에 빨간 원, 주황 원, 흰 원 등을 겹쳐 위험을 암시하거나 중립을 표시한다. 인지 스티어링에서는 “빨간 원이 있으면 그 부분에 집중한다”와 같은 색상‑특정 지시문을 프롬프트에 삽입한다. 텍스트 스티어링은 좌표 정보를 텍스트 형태로 제공해 모델이 특정 영역을 언어적으로 지정하도록 만든다.
이러한 스티어링 메커니즘을 정량적으로 평가하기 위해 저자는 **SAVeS**라는 새로운 벤치마크를 구축했다. SAVeS는 합성 이미지와 명령문을 쌍으로 구성하며, 동일한 명령이 안전한 상황과 위험한 상황에서 각각 어떻게 달라지는지를 설계한다. 또한, 평가 프로토콜을 세 가지 지표로 나눴다. **행동 응답 정확도(BRA)**는 모델이 위험 상황에서 올바르게 거부했는지를 측정하고, **근거 정렬도(GSA)**는 모델이 제공한 설명이 실제 위험 객체와 일치하는지를 평가한다. 마지막으로 **오판 거부율(FRR)**은 안전한 상황에서 불필요하게 거부한 비율을 측정해 과잉 거부 문제를 파악한다. 이 프로토콜은 단순히 거부율만을 보는 기존 평가와 달리, 모델이 시각적 근거에 기반해 합리적인 판단을 내렸는지를 종합적으로 검증한다.
실험은 여러 공개 VLM(예: BLIP‑2, LLaVA, MiniGPT‑4 등)과 최신 안전 벤치마크인 MSSBench‑Embodied에 SAVeS 데이터를 적용해 수행되었다. 결과는 일관되게 나타났다. **시각 스티어링**에서 빨간 원을 위험 객체 위에 놓으면 대부분의 모델이 위험을 인식하고 거부했으며, GSA 점수도 크게 상승했다. 반대로 흰 원으로 위험 객체를 가리면 모델은 위험을 무시하고 수행을 시도했으며, FRR이 급증했다. **인지 스티어링**에서 색상‑특정 프롬프트를 추가하면 모델이 빨간 원에 과도하게 민감해져, 실제 위험이 없더라도 거부하거나 위험을 과대평가하는 경향이 나타났다. 텍스트 스티어링은 좌표 정보를 제공했을 때도 비슷한 효과를 보였지만, 시각적 마커에 비해 영향력이 다소 약했다.
또한, 저자는 자동화된 세 가지 파이프라인을 설계했다. **Guardian**은 보조 VLM을 이용해 위험 점수를 추정하고, 위험도가 높은 객체에 빨간 원을, 낮은 객체에 흰 원을 자동으로 표시한다. 이를 통해 모델의 안전 판단을 보강하려는 시도였으며, 실제로 위험 상황에서 거부율이 향상되었다. **Auditor**는 모델의 내부 어텐션 맵을 분석해 ‘어텐션 싱크(Attention Sink)’라 불리는 이미지 가장자리 집중 현상을 발견하고, 이를 억제하거나 강조하는 마스크를 적용해 모델의 주의를 재조정한다. **Attacker**는 색상 연관성을 악용해 위험 객체를 흰 원으로 가리고, 배경에 빨간 원을 배치해 모델이 위험을 오인하도록 만든다. 이 공격 시나리오는 모델이 색상‑위험 연관성을 지나치게 의존한다는 취약점을 명확히 드러냈다.
논문의 주요 기여는 다음과 같다. (1) 시맨틱 스티어링이라는 새로운 프레임워크를 제시해 VLM의 안전 판단이 의미 단서에 얼마나 민감한지 체계적으로 분석하였다. (2) SAVeS 벤치마크와 BRA·GSA·FRR 평가 프로토콜을 도입해 행동 정확도와 근거 정합성을 동시에 측정하였다. (3) 다양한 VLM에 대해 실험을 수행해 시각‑언어 연관성에 기반한 위험 인식이 실제 시각적 이해보다 우선한다는 사실을 입증하였다. (4) 자동화된 스티어링 파이프라인을 통해 안전 강화와 공격 양쪽 모두가 가능함을 보여, 멀티모달 안전 시스템 설계 시 색상·텍스트 편향을 고려해야 함을 경고한다.
결론적으로, VLM이 안전 판단을 할 때 시각적 내용보다 학습된 시각‑언어 연관성에 크게 의존한다는 점을 밝혀냈으며, 의미 단서를 활용한 스티어링이 안전 강화와 악용 양쪽 모두에 활용될 수 있음을 입증하였다. 향후 연구는 보다 견고한 시각적 근거 추출 메커니즘과, 색상·텍스트 편향을 보정하는 학습 전략을 개발함으로써 멀티모달 시스템의 안전성을 근본적으로 향상시키는 방향으로 나아가야 할 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기