대규모 비전‑언어 모델을 위한 테스트 시점 스펙트럼 교정 방어
초록
본 논문은 CLIP과 같은 비전‑언어 모델이 고주파 영역에 편향된 특성 때문에 적대적 공격에 취약함을 밝혀낸 뒤, 저주파 특징을 양성 앵커로, 원본 특징을 음성 앵커로 삼는 대비 학습 목표를 통해 입력에 작은 교정 교란을 최적화하는 테스트‑시점 방어 기법인 Contrastive Spectral Rectification(CSR)을 제안한다. CSR은 입력‑특이적 게이팅으로 필요할 때만 작동하며, 16개 데이터셋에서 AutoAttack 대비 평균 18.1% 향상을 달성하고, 추론 오버헤드도 낮아 다양한 비전 과제에 범용적으로 적용 가능하다.
상세 분석
논문은 먼저 적대적 예시(Adversarial Example, AE)가 저주파 성분을 점진적으로 차단할 때 특징 일관성이 급격히 붕괴되는 현상을 실험적으로 확인한다. 이는 CLIP이 중·고주파 성분에 과도하게 의존하는 ‘스펙트럴 바이어스’를 가지고 있음을 의미한다. 저주파는 인간 시각이 주로 활용하는 형태·구조 정보를 담고 있어 자연 이미지의 매니폴드에 강하게 정착하지만, 중·고주파는 비정형적인 비강건 특징을 포함해 작은 변동에도 큰 그래디언트를 만든다. 저자들은 2‑D 푸리에 변환을 이용해 손실 함수의 스펙트럴 그래디언트 크기(SGM)를 정의하고, 이를 시각화해 CLIP이 중·고주파 영역에서 손실에 대한 민감도가 현저히 높음을 보여준다. 또한, 특정 주파수 밴드에 제한된 공격을 수행해 특징 공간 이동량(ΔΦ)을 측정했을 때, 저주파 제한 공격은 거의 효과가 없으며, 중·고주파 제한 공격만이 작은 ℓ∞ 예산에서도 큰 임베딩 변화를 일으킨다. 이러한 분석을 바탕으로 저자들은 두 가지 핵심 아이디어를 도출한다. 첫째, 저주파 필터링된 특징을 ‘양성 앵커’로 삼아 자연 매니폴드에 대한 기준을 제공하고, 원본(잠재적 적대적) 특징을 ‘음성 앵커’로 삼아 반대 방향으로 밀어내는 대비 손실을 설계한다. 둘째, 모든 입력에 교정 교란을 적용하면 정상 이미지까지 손상될 위험이 있으므로, 입력‑특이적 게이팅 메커니즘을 도입해 저주파와 원본 특징 사이의 코사인 유사도가 일정 임계값 이하인 경우에만 교정 과정을 활성화한다. 교정 교란은 작은 파라미터(예: 3‑5 단계의 경사 하강)로 최적화되며, 최종 목표는
L₍CSR₎ = –cos(f(x+δ), f_low(x)) + cos(f(x+δ), f(x))
와 같이 양성 앵커와의 유사도는 최대화하고 음성 앵커와의 유사도는 최소화하도록 하는 것이다. 실험에서는 16개의 제로샷 분류 벤치마크(General, Fine‑Grained, Scene, Domain)와 세 가지 추가 비전 과제(세그멘테이션, 이미지 캡셔닝, VQA)에 CSR을 적용했으며, AutoAttack(ℓ∞=4/255) 대비 평균 18.1% 정확도 향상을 기록했다. 또한, 추론 시 추가 연산량은 10% 이하로 제한돼 실시간 서비스에 적용 가능함을 입증한다. 기존의 테스트‑시점 방어인 TTC와 달리 CSR은 저주파 기반의 ‘양성 신호’를 명시적으로 활용해 적대적 공간에서 멀어지면서도 자연 매니폴드에 재정렬하는 효과를 얻는다. 이는 스펙트럴 바이어스를 이용한 방어가 단순 저주파 필터링보다 더 강력하고, 다양한 태스크에 일반화될 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기