외부 감시로 백도어 방어 VLM 기반 실시간 테스트 방어 프리즘
초록
본 논문은 기존 내부 진단 방식의 한계를 지적하고, 사전 학습된 범용 비전‑언어 모델(VLM)을 독립적인 외부 감사자로 활용하는 새로운 방어 패러다임을 제안한다. PRISM은 하이브리드 VLM 교사와 통계적 마진 모니터링 기반 적응형 라우터를 결합해 테스트 시점에 시각적 프로토타입을 온라인으로 정제하고, 동적 임계값을 실시간 보정한다. 17개 데이터셋·11종 공격에 대한 실험에서 CIFAR‑10에서 공격 성공률을 1% 이하로 낮추고 클린 정확도까지 향상시키며, 모델‑불변·외부화된 보안의 새로운 기준을 제시한다.
상세 분석
PRISM은 “내부 진단 → 외부 의미 감사”라는 근본적인 전환을 통해 백도어 방어의 설계 공간을 재정의한다. 기존의 모델 복구·입력 강건성 방법은 피해 모델의 파라미터 혹은 입력 변형에 의존하기 때문에, 트리거가 고도화되면 쉽게 회피당한다. 반면 PRISM은 사전 학습된 VLM을 완전히 동결된 외부 감사자로 두어, 피해 모델과는 완전히 독립적인 의미 공간을 활용한다. 이때 핵심 기술은 두 가지이다. 첫째, 하이브리드 VLM 교사는 정적 텍스트 앵커와 온라인으로 축적되는 시각적 프로토타입을 가중합함으로써, 일반적인 제로샷 VLM이 갖는 도메인 격차를 메운다. 프로토타입은 테스트 스트림에서 누적된 이미지 임베딩을 누적 이동 평균(CMA)으로 업데이트하며, 클래스별 중심점으로 수렴한다. 둘째, 적응형 라우터는 로그잇 마진의 실시간 통계분포를 코니시‑피셔 전개를 이용해 추정하고, 이 분포의 사분위수와 변동성을 기반으로 동적 임계값을 조정한다. 이렇게 하면 정상 샘플과 트리거 샘플 사이의 마진 차이가 크게 변동해도 과도한 오탐이나 누락을 방지한다.
구조적으로는 입력을 두 경로(피해 모델, VLM 교사)로 동시에 전파하고, 각각의 로그잇을 라우터에 전달한다. 라우터는 현재 마진이 통계적으로 “안전”한 구간에 있으면 피해 모델의 예측을 그대로 사용하고, 그렇지 않으면 VLM 교사의 예측으로 대체한다. 이 과정은 완전 온라인이며, 별도의 라벨링 데이터나 사전 재학습 없이 테스트 단계에서만 수행된다.
실험에서는 CLIP, SigLIP, Qwen‑VL, Gemma‑3 등 6가지 VLM 백본을 교차 검증했으며, CIFAR‑10, ImageNet‑C, GTSRB 등 17개 데이터셋과 BadNet, WaNet, Dynamic Trigger, Clean‑Label 등 11종 공격을 포괄한다. PRISM은 모든 설정에서 ASR을 1% 이하로 억제하면서, 클린 정확도는 평균 0.3%p 상승한다. 특히 물리적 객체를 이용한 Clean‑Image 공격과 적응형 플러딩 공격에 대해 기존 모델 복구·입력 정제 기법이 거의 무력화되는 반면, PRISM은 높은 검출률을 유지한다.
한계점으로는 VLM 자체가 대규모 사전 학습 데이터에 편향될 가능성, 그리고 실시간 통계 추정에 필요한 충분한 테스트 샘플 확보가 필요하다는 점을 들 수 있다. 또한, 라우터의 통계 모델이 급격한 데이터 분포 변화를 겪을 경우 임계값 조정이 지연될 위험이 있다. 향후 연구에서는 멀티‑모달 교사(텍스트·오디오·비디오)와 메타‑학습 기반 임계값 예측기를 결합해 더욱 빠르고 안정적인 방어 메커니즘을 구축할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기