다중 분류기 최적 적대 공격 게임 이론 접근

본 논문은 여러 분류기를 동시에 공격하기 위한 최적의 적대적 노이즈를 설계하는 문제를 제로섬 게임으로 모델링하고, 최적 공격을 찾기 위해 베스트 응답 오라클을 설계한 뒤 이를 멀티플리케이티브 웨이트 업데이트(MWU) 알고리즘에 적용한다. 선형 모델과 심층 신경망에 대해 정확한 베스트 응답을 구하거나, 클래스 수가 많을 때는 볼록 완화를 이용해 근사해를 얻는다. 실험 결과, 제안 방법이 기존 단일‑모델 공격보다 훨씬 높은 성공률을 보인다.

저자: Juan C. Perdomo, Yaron Singer

본 논문은 현대 머신러닝 시스템이 여러 개의 사전 학습된 분류기(예: 앙상블, 다중 모델 서비스)를 동시에 이용하는 상황에서, 공격자가 이러한 모델들을 모두 무력화할 수 있는 최적의 적대적 노이즈를 어떻게 설계할 수 있는지를 탐구한다. 기존 연구는 주로 단일 모델을 목표로 하는 적대적 공격에 초점을 맞추었으며, 다중 모델을 동시에 공격하려면 각 모델의 결정 경계가 서로 다르기 때문에 단순히 평균 손실을 최소화하는 방법은 충분히 강력하지 않다. 따라서 저자는 “모든 모델에 대해 최소 정확도를 동시에 낮추는” 공격을 정의하고, 이를 제로섬 2인 게임으로 모델링한다. **게임 모델링** 학습자는 모델 집합 C={c₁,…,c_n} 중 하나를 무작위로 선택하는 혼합 전략 p를 사용하고, 공격자는 ‖v‖₂ ≤ ε 인 제한된 노이즈 v를 선택하는 혼합 전략 q를 사용한다. 게임의 보상 함수는 M₀₋₁(p,q)=E_{c∼p, v∼q}

다중 분류기 최적 적대 공격 게임 이론 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기