DiffBreak 확산 기반 정화는 정말 견고한가
초록
본 논문은 확산 모델을 이용한 정화 방어(DBP)가 적대적 공격에 취약함을 이론적으로 증명하고, 기존 평가 프로토콜과 그래디언트 구현의 오류를 지적한다. 저자는 정확한 역전파를 제공하는 DiffGrad 모듈을 포함한 DiffBreak 툴킷을 공개하고, 다중 샘플 다수결(MV) 방식을 제안하지만, 저주파수(LF) 공격을 통해 MV조차 무력화할 수 있음을 보인다.
상세 분석
DBP는 입력을 확산시킨 뒤 역확산 과정을 통해 자연 데이터 분포에 투영한다는 가정에 기반한다. 논문은 이 가정이 “점수 모델(sθ)”이 완벽히 학습되었다는 전제에 의존한다는 점을 지적한다. 실제로 sθ는 또 다른 신경망이며, 적대적 교란에 취약하다. 저자는 적응형 공격이 손실 함수의 그래디언트를 DBP 전체 파이프라인을 통해 역전파할 때, 실제로는 분류기 M이 아니라 sθ의 파라미터를 조작한다는 정리를 제시한다(정리 3.1). 즉, 공격자는 역확산 경로 자체를 공격 대상에 맞게 왜곡시켜, 최종 정화 결과가 공격자가 원하는 ‘적대적 분포’가 되도록 만든다.
이론적 분석에 이어, 기존 논문들이 사용한 자동 미분 구현이 메모리 절감 기법(체크포인팅)과 결합되면서 그래디언트가 잘못 계산되는 문제를 발견한다. 저자는 중간 단계의 샘플을 저장하고, 필요한 역전파 경로를 재구성하는 DiffGrad를 제안한다. 이를 통해 정확한 그래디언트를 얻어, AutoAttack과 같은 강력한 공격이 DBP를 크게 무력화함을 실험적으로 확인한다.
또한, DBP 방어가 “한 번 정화 후 분류”라는 단일 샘플 평가에 의존하고 있다는 점을 비판한다. 확산 과정은 본질적으로 확률적이므로, 하나의 정화 결과만으로 방어 강도를 측정하는 것은 통계적으로 부적절하다. 저자는 다중 정화 복제본을 생성하고 다수결(MV)로 최종 라벨을 결정하는 평가 프로토콜을 제안한다. MV는 일부 공격에 대해 방어 성능을 약간 회복시키지만, 저주파수(LF) 공격—이미지 워터마크 방어에서 영감을 받은 저주파수 교란 최적화—을 적용하면 MV조차 0% 수준으로 무력화된다.
실험은 CIFAR‑10과 ImageNet을 대상으로 수행되었으며, DiffBreak 툴킷을 이용한 LF 공격은 기존 DBP 방어를 완전히 붕괴시킨다. 결과적으로 DBP가 “자연 매니폴드에 투영한다”는 핵심 주장이 근본적으로 틀렸으며, 방어의 견고함은 부정확한 그래디언트와 부적절한 평가 프로토콜에 의해 과대평가된 것이 밝혀졌다.
댓글 및 학술 토론
Loading comments...
의견 남기기