멀티모달 신경증강 프롬프트 튜닝으로 강화된 비전‑언어 모델의 적대적 견고성
초록
본 논문은 기존 텍스트 전용 프롬프트 튜닝(AdvPT)을 확장하여, 시각·텍스트 양쪽에 다중 레이어 프롬프트와 경량 토큰 리파이너를 삽입한 Neural Augmentor 프레임워크(NAP‑Tuning)를 제안한다. 내부 특징 정화 메커니즘을 통해 적대적 이미지 교란을 직접 복원함으로써, ViT‑B16/B32 기반 CLIP 모델에서 AutoAttack 기준 33% 수준의 견고성 향상을 달성하면서도 클린 정확도는 유지한다.
상세 분석
NAP‑Tuning은 세 가지 핵심 혁신을 통해 기존 AdvPT의 한계를 극복한다. 첫째, 텍스트 프롬프트에 국한되던 방식을 탈피해 시각 프롬프트를 추가함으로써 이미지와 텍스트 양쪽에서 공격 표면을 동시에 보강한다. 시각 프롬프트는 이미지 인코더의 초기 토큰에 삽입되어, 공격에 취약한 저층 특징을 사전 보정한다. 둘째, 단일 레이어가 아니라 여러 트랜스포머 블록에 걸쳐 프롬프트와 토큰 리파이너를 배치함으로써, 계층적 특성 왜곡을 단계별로 정화한다. 각 레이어마다 독립적인 리파이너가 잔차 연결을 통해 원래 특징과 정화된 특징을 합성하므로, 깊은 레이어에서 발생하는 비선형 왜곡까지도 효과적으로 억제한다. 셋째, Neural Augmentor라는 모듈형 구조를 도입한다. 토큰 리파이너는 가벼운 MLP‑형태(또는 1‑D 컨볼루션)로 구현돼, 백본 파라미터를 고정한 채 학습 가능한 파라미터 수를 제한하면서도 특징 공간에서 직접적인 정화 능력을 제공한다. 이 설계는 전통적인 입력‑측 프롬프트 튜닝이 “분포 정렬”에 머무는 반면, NAP‑Tuning은 “특징 복원”이라는 근본적인 방어 메커니즘을 구현한다는 점에서 차별적이다.
실험에서는 11개 데이터셋과 다양한 공격(표준 PGD, AutoAttack, 물리적 변형 등) 하에 성능을 평가하였다. 특히 AutoAttack 벤치마크에서 ViT‑B16 기반 CLIP 모델은 기존 최강 baselines 대비 32.3%p, ViT‑B32에서는 31.3%p의 정확도 향상을 기록했다. 클린 정확도는 0.5% 이하의 미미한 감소에 그쳐, 높은 견고성을 유지하면서도 일반화 능력을 크게 손상시키지 않는다. Ablation study는 (1) 시각 프롬프트 부재 시 견고성 감소, (2) 단일 레이어 프롬프트만 사용 시 정화 효과 제한, (3) 토큰 리파이너 없이 순수 잔차 연결만 사용할 경우 정화 능력 저하를 각각 확인한다. 또한, 시각·텍스트 양쪽에 동일한 프롬프트 수를 배분했을 때 가장 높은 방어 효율을 보이며, 이는 멀티모달 협업이 적대적 교란을 상쇄하는데 중요한 역할을 함을 시사한다.
이론적으로는 적대적 학습이 일반화보다 더 높은 모델 용량을 요구한다는 기존 연구를 인용해, 프롬프트 튜닝만으로는 충분한 용량을 제공하지 못한다는 점을 지적한다. NAP‑Tuning은 백본을 고정하면서도 내부에 추가 용량(토큰 리파이너)을 삽입함으로써, “용량 확보 + 지식 보존”이라는 트레이드오프를 효율적으로 해결한다. 따라서 대규모 사전학습 VLM을 그대로 활용하면서도, 적대적 방어를 위한 구조적 보강을 손쉽게 적용할 수 있는 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기