시각언어 모델 안전을 위한 위험 인식 주입 효율적 방어와 성능 보존

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각‑언어 모델(VLM)에서 발생하는 멀티모달 탈옥 공격을 방어하기 위해, 훈련 없이 적용 가능한 “위험 인식 주입(Risk Awareness Injection, RAI)” 프레임워크를 제안한다. 언어 임베딩으로 구성한 위험 프로토타입 서브스페이스를 이용해 시각 토큰의 위험 신호를 정량화하고, 위험도가 높은 토큰에만 선택적·희소하게 위험 신호를 주입함으로써 LLM 수준의 위험 인식을 회복한다. 실험 결과, 공격 성공률을 크게 낮추면서도 기존 VLM의 이미지·비디오 이해 성능은 거의 손상되지 않는다.

상세 분석

RAI는 기존 안전 파인튜닝이나 공격적인 토큰 변조와 달리 “훈련‑프리” 접근을 취한다는 점에서 혁신적이다. 먼저 모델이 이미 보유하고 있는 언어 임베딩을 활용해 위험 프로토타입 서브스페이스를 구축한다. 이는 MM‑SafetyBench, JailBreakV‑28K, Video‑SafetyBench 등에서 추출한 위험 키워드(예: violence, illegal, hate 등)를 토큰 임베딩 행렬에서 직접 추출해 만든 K × d 차원의 행렬이며, 별도의 외부 분류기나 추가 파라미터가 필요하지 않다.

다음 단계에서는 입력 이미지(또는 비디오)를 시각 토큰 시퀀스로 변환한 뒤, 각 시각 토큰과 위험 프로토타입 서브스페이스 사이의 코사인 유사도를 계산한다. 이 유사도 매트릭스는 토큰‑레벨 위험 점수를 제공하며, 실험적으로 전체 토큰 중 0.01 %~1 % 정도만 위험도가 높은 토큰으로 선정해도 방어 효과가 충분함을 확인한다.

선정된 고위험 토큰에 대해서는 “희소 게이팅” 메커니즘을 통해 위험 프로토타입 벡터를 가중합 형태로 주입한다. 주입은 LLM 백본의 초기 레이어(보통 레이어 0)에서 한 번만 수행되며, 이는 깊은 레이어로 갈수록 위험 신호가 점차 희석되는 “Risk Signal Dilution” 현상을 역전시키기 위함이다. 초기 레이어에서 위험 신호를 강화하면, 이후의 텍스트‑시각 결합 과정에서 LLM이 위험을 감지하고 안전 거부를 활성화할 확률이 크게 증가한다.

실험에서는 Qwen2‑VL, Flamingo, LLaVA 등 여러 최신 VLM에 RAI를 적용했으며, MM‑SafetyBench 기반의 멀티모달 탈옥 벤치마크에서 공격 성공률(ASR)을 평균 60 % 이상 감소시켰다. 동시에 MME, VQAv2 등 표준 이미지 이해 벤치마크에서는 인식 정확도와 퍼셉션 스코어가 0.5 % 이하로만 감소해, 실질적인 유틸리티 손실이 거의 없음을 보였다. 또한, 레이어 선택 실험에서 초기 레이어 주입이 가장 높은 방어 효율과 최소한의 유틸리티 저하를 동시에 달성한다는 점을 확인했다.

RAI의 장점은 (1) 별도 파라미터 학습이 필요 없어 비용이 거의 들지 않음, (2) 위험 토큰만 선택적으로 조정함으로써 시각 정보의 전체적인 의미 구조를 보존, (3) 다양한 VLM 아키텍처와 손쉽게 호환된다는 점이다. 한계로는 위험 프로토타입 서브스페이스가 키워드 기반이므로 새로운 위험 유형이 등장하면 키워드 업데이트가 필요하고, 시각 토큰의 위험 점수 계산이 추가 연산을 요구한다는 점을 들 수 있다. 향후 연구에서는 동적 키워드 확장, 비디오 프레임 간 연속성 고려, 그리고 멀티모달 안전 평가 프레임워크와의 통합을 통해 RAI를 더욱 일반화할 수 있을 것이다.

시각언어 모델 안전을 위한 위험 인식 주입 효율적 방어와 성능 보존

초록

상세 분석

댓글 및 학술 토론

의견 남기기