데이터 불균형 속 백도어 공격을 막는 인증 기반 샘플 탐지 프레임워크 RPP
초록
본 논문은 클래스 불균형이 백도어 공격 성공률을 크게 높이고 기존 방어 기법을 약화시킨다는 사실을 실증한다. 이를 해결하기 위해 모델 출력 확률만을 이용해 검증 가능한 샘플‑레벨 탐지를 수행하는 Randomized Probability Perturbation(RPP) 방식을 제안한다. RPP는 무작위 노이즈 하에서 예측 확률 벡터의 변동성을 측정하고, 컨포멀 프레딕션을 통해 임계값을 자동 보정함으로써 불균형 데이터에서도 높은 탐지 정확도와 이론적 위양성률 상한을 제공한다. 다섯 개 데이터셋·10가지 백도어·12가지 기존 방어를 대상으로 한 실험에서 RPP는 기존 최첨단 방어보다 월등히 우수한 성능을 보였다.
상세 분석
이 논문은 먼저 데이터 불균형이 백도어 공격에 미치는 영향을 체계적으로 조사한다. 불균형 비율(ρ)이 커질수록 소수 클래스가 다수 클래스에 의해 압도되어, 공격자는 소수 클래스에 트리거를 삽입하고 라벨을 다수 클래스로 변조함으로써 적은 양의 포이즈드 샘플만으로도 높은 공격 성공률(ASR)을 달성한다. 실험 결과, ρ=200 수준의 극심한 불균형에서는 기존 방어인 AC, ASSET, SCALE‑UP 등이 탐지율이 급격히 떨어지는 반면, 백도어 자체는 오히려 성공률이 90% 이상으로 상승한다. 이러한 현상은 기존 방어가 전체 데이터 분포, 클래스별 통계 등에 의존하는 구조적 한계에서 비롯된다.
RPP는 이러한 한계를 극복하기 위해 “샘플‑레벨 안정성”이라는 새로운 신호를 활용한다. 백도어 트리거가 삽입된 이미지의 경우, 트리거는 모델 내부에 강하게 고정된 특징을 형성하므로, 입력에 작은 랜덤 노이즈(가우시안 혹은 유니폼)를 추가해도 예측 확률 벡터 p(x) =
댓글 및 학술 토론
Loading comments...
의견 남기기