그들은 거인이 아닐지도 모른다 적은 쿼리로 블랙박스 적대적 예제 생성
초록
본 논문은 파티클 스웜 최적화(PSO)를 이용해 모델 내부 정보를 알 수 없는 블랙박스 환경에서 적은 쿼리만으로도 높은 성공률의 적대적 예제를 생성하는 AdversarialPSO와, 중요한 이미지 영역을 탐색해 품질을 단계적으로 향상시키는 SWISS 기법을 제안한다. CIFAR‑10, MNIST, ImageNet 실험에서 기존 최첨단 방법보다 쿼리 수를 크게 절감하면서도 99.6 %·96.3 %·82.0 %의 성공률을 달성하였다.
상세 분석
AdversarialPSO는 전통적인 그래디언트 기반 블랙박스 공격이 갖는 두 가지 한계—다량의 쿼리 요구와 지역 최소점에 빠지는 위험—를 극복하기 위해 완전한 gradient‑free 메타휴리스틱인 PSO를 채택한다. PSO는 입자 집단이 전역 탐색과 지역 착취를 동시에 수행하도록 설계된 속도‑위치 업데이트 규칙을 갖는데, 논문에서는 이를 이미지 픽셀 공간에 직접 매핑한다. 각 입자는 원본 이미지에 미세한 변형을 가한 후보 해이며, 적합도 함수는 (1) 목표 클래스에 대한 확률 점수 상승, (2) L₂ 혹은 L∞ 거리 제한을 동시에 만족하도록 정의된다. 이중 목적을 하나의 스칼라 값으로 결합함으로써, 입자는 “정확히 목표를 달성하면서도 인간 눈에 거의 구분되지 않는” 해를 향해 움직인다.
특히 저자들은 관성 가중치 w를 선형 감소시키고, 수축 인자 k와 결합한 혼합 업데이트 식을 도입해 초기 탐색 단계에서는 넓은 영역을 빠르게 샘플링하고, 후반부에서는 수렴을 가속화하도록 조정하였다. 이러한 동적 파라미터 스케줄링은 고차원 이미지(예: ImageNet 224×224×3)에서도 비교적 적은 반복 횟수(수천 회 이하)로 충분히 좋은 해를 찾게 한다.
SWISS는 AdversarialPSO의 파티클을 “개별 탐색 공간”으로 제한함으로써, 이미지 내에서 모델이 가장 의존하는 영역을 단계적으로 식별한다. 구체적으로, 전체 이미지에 대해 큰 블록 단위로 변형을 가해 모델 출력 변화를 측정하고, 변화가 큰 블록을 재귀적으로 세분화한다. 이렇게 얻어진 “핵심 영역”에 대해서만 정밀 PSO를 수행하면, 전체 쿼리 수는 크게 늘어나지 않으면서도 시각적 품질(L₂ 거리, 구조적 유사도)과 성공률 사이의 트레이드오프를 자유롭게 조절할 수 있다.
실험 결과는 세 가지 데이터셋에 대해 상세히 제시된다. MNIST에서는 평균 1,200 쿼리로 96 % 이상의 성공률을 기록했으며, CIFAR‑10에서는 2,800 쿼리, ImageNet에서는 7,500 쿼리 수준에서 각각 99.6 %, 96.3 %, 82.0 %의 성공률을 달성했다. 이는 ZOO(수십만 쿼리)나 GenAttack(수천~수만 쿼리) 대비 5‑10배 정도 효율이 높다. 또한, SWISS를 적용한 경우, 동일 쿼리 예산 내에서 L₂ 거리와 SSIM 지표가 현저히 개선되는 것을 확인했다.
한계점으로는 PSO 자체가 전역 최적을 보장하지 않으며, 입자 수와 반복 횟수에 따라 메모리·연산 비용이 증가할 수 있다는 점을 들었다. 또한, 목표가 확률 점수 상승이 아닌 정확한 라벨 변화를 요구하는 경우, 적합도 설계가 추가적인 튜닝을 필요로 한다. 그럼에도 불구하고, 본 연구는 블랙박스 환경에서 “적은 비용으로 충분히 좋은” 적대적 예제를 생성할 수 있는 실용적인 프레임워크를 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기