강인한 모델 약한 공격 최신 방어와 블랙박스 적대적 공격 실태
초록
본 논문은 ImageNet 기준 최신 방어 모델들을 대상으로 13가지 블랙박스 공격(전이 기반·쿼리 기반)을 평가한다. 실험 결과, 단순 적대적 훈련 모델조차도 최신 전이 공격에 거의 저항하며, AutoAttack 등 강력한 화이트박스 방어가 블랙박스 상황에서도 높은 견고성을 보인다. 또한, 공격 성공률은 서브시게이트 모델과 목표 모델 간의 견고성 정렬 정도에 크게 좌우됨을 확인한다.
상세 분석
RobustBlack 논문은 현재 연구 커뮤니티가 블랙박스 공격을 평가할 때 사용하고 있는 기준이 지나치게 약한 방어 모델에 국한되어 있다는 점을 비판한다. 이를 바로잡기 위해 저자들은 두 가지 핵심 축을 설계하였다. 첫 번째는 ‘평가 프로토콜’로, RobustBench이 제시하는 ε = 4/255 라는 현실적인 ℓ∞ 예산을 고정하고, ImageNet 대규모 데이터셋에서 8개의 최신 방어(Adversarial Training, AutoAttack‑optimized 모델, ConvStem, Vision Transformer 등)를 선정하였다. 두 번째는 ‘공격 포트폴리오’로, 전이 기반 공격 9종(MI‑FGSM, DI‑FGSM, TI‑FGSM, VMI, ADMIX, LGV, Ghost, SGM 등)과 쿼리 기반 공격 4종(ZOO, Square, Sign‑OPT, RayS 등) 등 총 13가지를 포함했다.
실험 설계는 각 공격을 동일한 ε = 4/255 조건 하에 실행하고, 성공률(ASR)과 견고 정확도(Robust Accuracy)를 측정한다. 특히, 서브시게이트 모델의 선택이 공격 성공에 미치는 영향을 정량화하기 위해 ‘견고성 정렬(Robustness Alignment)’ 개념을 도입하였다. 이는 서브시게이트와 목표 모델이 동일한 방어 전략(예: AutoAttack 최적화) 혹은 유사한 학습 스케줄을 공유할 때 전이 성공률이 현저히 상승한다는 것을 의미한다.
핵심 결과는 다음과 같다. (1) 가장 진보된 전이 기반 공격조차도 단순 적대적 훈련 모델(예: Madry’s AT)에서는 성공률이 10% 이하로 급격히 감소한다. (2) AutoAttack에 최적화된 방어는 화이트박스 공격에 대한 내성을 넘어, 전이 및 쿼리 기반 블랙박스 공격에서도 평균 30% 이상의 성공률 저하를 보이며, 이는 ‘방어가 방어가 된다’는 새로운 패러다임을 제시한다. (3) 서브시게이트와 목표 모델 간의 견고성 정렬이 높을수록 전이 성공률이 평균 6.5%포인트 상승한다는 통계적 증거가 제시되었으며, 이는 공격 설계 시 서브시게이트 선택이 핵심 변수임을 시사한다.
또한, 논문은 기존 블랙박스 벤치마크(예: BlackboxBench)가 방어와 공격 사이의 상호작용을 충분히 고려하지 못한다는 점을 지적한다. 일부 최신 방어(예: BASES, Liu et al.)는 오히려 서브시게이트로 활용될 경우 공격 성공률을 1.26%에서 12.55%까지 끌어올리는 역효과를 낼 수 있음을 실험적으로 입증한다. 이는 방어 설계 단계에서 ‘공격에 활용될 가능성’까지 평가해야 함을 강조한다.
전반적으로 이 연구는 (i) 블랙박스 공격 평가에 있어 강력한 방어 모델을 포함한 표준화된 프로토콜이 필요함을, (ii) 화이트박스 방어가 블랙박스 상황에서도 일정 수준의 보호를 제공한다는 사실을, (iii) 서브시게이트 선택이 공격 성공에 결정적인 영향을 미친다는 세 가지 인사이트를 제공한다. 이러한 결과는 향후 방어 연구가 ‘화이트박스 강도’뿐 아니라 ‘블랙박스 전이 저항성’까지 포괄적으로 고려해야 함을 강력히 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기