대립적 강건성 평가 L0와 L∞ 공격의 필요성

본 논문은 현재 적대적 머신러닝 분야에서 존재하는 방대한 공격·방어 기법들 때문에 모델의 강건성을 객관적으로 평가하기가 매우 어렵다는 점을 출발점으로 삼는다. 저자들은 이 문제를 네 가지 핵심 이슈(P1‑P4)로 정리한다. 첫째, 모델 의존성(P1)으로 인해 특정 네트워크 구조에만 적용 가능한 평가가 일반화되지 못한다. 둘째, 충분하지 않은 평가(P2)로 인해 다양한 공격 유형과 교란 규격(L0, L1, L2, L∞) 중 어느 것이 실제 강건성을 측정하는 데 필수적인지 불분명하다. 셋째, 위조 샘플(P3) 문제는 L1·L2 규격만으로는 교란이 집중된 소수 픽셀을 제한하지 못해 인간이 인식할 수 없는 왜곡된 이미지를 만들 수 있음을 지적한다. 넷째, 교란 강도 의존성(P4)으로 인해 서로 다른 교란 양을 사용한 실험 결과를 직접 비교하기 어렵다. 이러한 문제들을 해결하기 위해 저자들은 ‘모델에 독립적인 이중 품질 평가(Dual Quality Assessment)’ 프레임워크를 제안한다. 핵심 아이디어는 L0와 L∞ 두 규격만을 사용해 공격을 수행함으로써, 교란의 공간적 분포와 강도를 동시에 제한한다는 것이다. L0는 변형된 픽셀 수(|Nz|)를 직접 제한해 교란이 특정 위치에 집중되는 것을 방지하고, L∞는 각 픽셀당 허용 가능한 최대 변형량을 제한해 전체 이미지에 고르게 미세 교란을 가한다. 이 두 규격은 인간이 인식 가능한 범위 내에서 가장 극단적인 공격 시나리오를 동시에 탐색하게 만든다. 구현 측면에서 저자들은 블랙박스 최적화 알고리즘인 Differential Evolution(DE)와 Covariance Matrix Adaptation Evolution Strategy(CMA‑ES)를 활용한다. L0 기반 ‘Few‑Pixel Attack’은 One‑Pixel Attack을 확장한 형태로, 변형 픽셀 수를 th 로 제한하고 픽셀 위치와 색상 값을 동시에 최적화한다. L∞ 기반 ‘Threshold Attack’은 입력 공간 전체를 탐색하면서 각 픽셀의 변형량을 th 이하로 유지한다. 두 공격 모두 그래디언트 정보를 전혀 사용하지 않으며, 따라서 로직 하이브리드, 진화형 하이브리드 등 다양한 비전통적 모델에도 적용 가능하다. 또한, 저자들은 ‘강건성 레벨(Robustness Levels)’이라는 개념을 도입한다. th 값을 1, 3, 5, 10 등 네 단계로 설정하고, 각 레벨에서 0 % 적대적 정확도를 달성한 모델을 ‘level‑pixel‑safe’ 혹은 ‘level‑threshold‑safe’라 명명한다. 이는 동일 교란 강도 하에서 모델 간 비교를 가능하게 하여 P4 문제를 해결한다. 실험에서는 WideResNet, DenseNet, ResNet, NIN, AllConv, CapsNet, LeNet 등 7개의 최신 이미지 분류 모델과, Adversarial Training, Total Variance Minimization, Feature Squeezing 등 서로 다른 원리를 가진 3가지 방어 기법을 평가한다. 결과는 모든 모델이 최소 하나의 레벨에서 취약함을 보였으며, 특히 L∞ 공격이 L0 공격보다 적은 픽셀 수(One‑Pixel Attack 대비 12 % 수준)로도 높은 성공률을 기록했다. 이는 기존 L∞ 기반 공격이 과도한 교란을 필요로 했던 기존 인식과 대비된다. 또한, 기존 화이트박스 공격(FGM, BIM, PGD, DeepFool, NewtonFool)과 비교했을 때, 제안된 이중 평가가 제공하는 레벨 기반 비교가 더 명확한 강건성 지표를 제공한다는 점을 입증한다. 추가 실험에서는 이미 생성된 적대적 샘플을 재사용하는 ‘극초고속 품질 평가(Extremely Fast Quality Assessment)’를 시도했으며, 전이 가능성을 확인함으로써 평가 비용을 크게 절감할 수 있음을 보여준다. 결론적으로, L0와 L∞ 두 규격을 동시에 활용하는 이중 평가 프레임워크는 모델 독립적이며, 교란 강도와 공간 분포를 모두 고려함으로써 기존 평가의 한계를 극복한다. 이는 향후 방어 설계와 강건성 인증에 있어 필수적인 기준이 될 가능성을 시사한다.

대립적 강건성 평가 L0와 L∞ 공격의 필요성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기