백도어 방어를 위한 테스트 시점 주의력 정화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(LVLM)의 백도어 공격이 시각 토큰이 텍스트 토큰의 주의를 탈취하는 “attention stealing” 현상에 기반한다는 새로운 메커니즘을 제시한다. 이를 이용해 훈련 없이 테스트 시점에 동작하는 방어 프레임워크 CleanSight를 설계했으며, 시각‑텍스트 주의 비율을 이용해 중독 입력을 탐지하고, 비정상적으로 높은 주의를 받은 시각 토큰을 선택적으로 제거함으로써 백도어를 무력화한다. 실험 결과 CleanSight는 기존 픽셀‑기반 정화 방법보다 높은 방어 효율을 보이며, 정상 입력에 대한 성능 저하도 최소화한다.

상세 분석

본 연구는 LVLM이 어댑터 또는 LoRA와 같은 경량 파라미터만을 미세조정하는 구조적 특성을 활용해, 백도어 공격이 시각 입력에 삽입된 트리거가 텍스트 프롬프트의 주의를 빼앗는 형태로 작동한다는 점을 발견하였다. 기존 연구에서는 백도어가 저수준 픽셀 패턴에 의존한다고 가정했지만, 저자들은 cross‑modal attention map을 정량화하여 시각 토큰이 비정상적으로 높은 attention weight를 획득하고, 그 결과 텍스트 토큰에 할당되는 attention이 급격히 감소하는 현상을 관찰했다. 특히, 중간 레이어(10~24층)의 cross‑modal fusion 단계에서 이 현상이 가장 두드러졌으며, 이는 시각 정보가 언어 모델에 통합되는 핵심 구간임을 시사한다.

이러한 “attention stealing”을 정량화하기 위해 저자들은 각 헤드별로 마지막 query 토큰(디코딩 단계)의 시각 토큰 집합 I_vis와 프롬프트 토큰 집합 I_prm에 대한 attention 합을 비율 S_{ℓ,h}= (∑{j∈I_vis} α{ℓ,h}^{q,j}) / (∑{j∈I_prm} α{ℓ,h}^{q,j}) 로 정의하였다. 이 비율은 백도어가 삽입된 입력에서 현저히 상승하며, 정상 입력에서는 낮은 값에 머문다. 헤드 수준의 세밀한 비율을 사용함으로써 평균화된 지표보다 더 높은 AUROC를 달성했고, 이는 개별 헤드가 트리거에 민감하게 반응한다는 증거이다.

CleanSight는 먼저 소량의 클린 검증 데이터셋을 이용해 각 레이어‑헤드 비율 벡터 s의 평균 μ와 표준편차 σ를 추정하고, 화이트닝 ℓ2 거리 d(ŝ)=‖(ŝ−μ)/σ‖_2 로 정규화된 이상치 점수를 계산한다. 이 점수가 사전에 설정한 임계값 γ(예: 99번째 백분위수)를 초과하면 입력을 “중독”으로 판단한다. 탐지 단계에서 사용되는 레이어는 cross‑modal fusion이 활발히 일어나는 중간 레이어 집합 L_det이며, 이는 실험적으로 가장 높은 구분력을 보였다.

중독이 탐지된 경우, CleanSight는 각 헤드에서 시각 토큰 중 attention 비율이 비정상적으로 높은 토큰들을 집계하여 전역 마스크 M을 만든다. 이후 후속 레이어와 디코딩 단계에서 M에 해당하는 토큰을 강제로 0으로 설정하거나 제거함으로써, 트리거가 차지한 시각 토큰이 더 이상 모델의 attention 흐름에 영향을 미치지 못하게 한다. 이 과정은 파라미터를 수정하지 않으며, 순수히 입력 흐름을 제어하는 비파라미터적 방법이다.

실험에서는 LLaVA와 CLIP 기반 LVLM에 대해 BadNet, Blended, Global‑trigger 등 다양한 백도어 공격을 적용했으며, CleanSight는 ASR(Attack Success Rate)을 70% 이상 감소시키는 동시에, Clean Accuracy는 1~~2% 이하로만 감소시켰다. 특히 픽셀‑기반 정화(예: 변환 기반 방어)와 비교했을 때, 동일한 공격 강도에서 CleanSight가 30~~50% 더 높은 방어 효과를 보였다. 이는 LVLM이 시각 토큰의 주의 분포에 민감하게 반응한다는 근본적인 특성을 정확히 공략했기 때문이다.

또한, CleanSight는 시각 토큰 프루닝 기법과 유사한 구조를 활용하지만, 기존 프루닝이 주로 연산 효율성 향상을 목표로 하는 반면, 여기서는 보안 목적을 위해 “트리거 토큰”을 목표로 선택적으로 제거한다는 점에서 차별화된다. 이러한 접근은 모델 파라미터를 전혀 건드리지 않으면서도, 백도어가 의도한 텍스트‑시각 연관성을 끊어버리는 효과적인 방어 메커니즘을 제공한다.

요약하면, 본 논문은 LVLM 백도어의 근본 원인을 attention stealing으로 규명하고, 이를 기반으로 훈련‑불필요, 플러그‑앤‑플레이 방식의 테스트 시점 방어인 CleanSight를 제안한다. 이 방법은 기존 방어 대비 높은 효율성과 낮은 성능 저하를 동시에 달성하며, 대규모 멀티모달 모델의 실시간 서비스 환경에 적합한 실용적 솔루션을 제공한다.

백도어 방어를 위한 테스트 시점 주의력 정화

초록

상세 분석

댓글 및 학술 토론

의견 남기기