데이터 포이즈닝 안전 효율성 트레이드오프: 입력 곡률을 통한 백도어 탐지와 방어
초록
본 논문은 넓은 신경망을 커널 리지 회귀로 정확히 모델링하여, 클러스터형 더티 라벨 포이즈닝이 입력 해시안에 랭크‑1 스파이크를 생성하고, 비선형 커널에서는 효율은 유지하면서 곡률이 사라지는 ‘근클론’ 현상을 밝혀낸다. 입력 그래디언트 정규화가 피셔·해시안 고유모드를 수축시켜 포이즈닝 효과를 감소시키지만 모델의 데이터 적합 능력을 감소시키는 안전‑효율성 트레이드오프를 수식적으로 증명한다. 실험은 MNIST, CIFAR‑10/100의 선형·딥 모델에서 이론을 검증한다.
상세 분석
본 연구는 넓은 신경망을 무한 폭 넓이 한계에서 커널 리지 회귀(KRR)와 동등하게 만든다는 최근 이론적 결과를 활용한다. 이 모델을 통해 입력 공간에서 더티 라벨 포이즈닝이 어떻게 작용하는지를 정밀하게 분석한다. 먼저, 동일한 트리거와 라벨을 가진 m개의 포이즈닝 샘플이 ζ 주변에 고도로 클러스터링된다고 가정하면, KRR의 해시안 H(x) = ∇²ₓL(x) 에서 가장 큰 고유값이 ∥∇ₓk(x,ζ)∥²·S(m;λ)² 로 나타난다. 여기서 S(m;λ)=mc+k_ζ m 은 포이즈닝의 집합적 증폭을 나타내는 스칼라이며, λ는 릿지 정규화 파라미터이다. 따라서 포이즈닝 효율(Δf)은 m에 대해 선형적으로 성장하지만, 해시안 스파이크는 효율의 제곱에 비례해 급격히 커진다. 이 관계를 “스파이크‑효율 법칙”이라 부른다.
선형 커널(k(x,x′)=xᵀx′)에서는 R_k = ∥∇ₓk∥²/k₀²가 상수이므로 효율이 커질수록 곡률도 동시에 커져, 포이즈닝이 스펙트럼적으로 쉽게 탐지된다. 반면 비선형 커널, 특히 가우시안(지수) 커널 k(x,x′)=exp(−‖x−x′‖²/2ℓ²)에서는 R_k = (‖x−ζ‖/ℓ)⁴ 로 나타난다. 따라서 트리거와 포이즈 대상이 길이 스케일 ℓ에 비해 매우 가깝게(r≪ℓ) 위치하면 k₀≈1이면서 ∥∇ₓk∥²∝r²/ℓ⁴ 로 거의 0에 수렴한다. 이 경우 Δf는 여전히 O(1) 수준으로 유지되지만 해시안 스파이크는 r²/ℓ⁴·Δf² 로 거의 사라진다. 이를 “근클론(regime)”이라 명명하고, 포이즈닝이 본질적으로 스펙트럼에서 숨겨지는 메커니즘을 제공한다. 논문은 이 현상이 신경망의 ‘뉴럴 콜랩스’ 현상과 일치함을 실험적으로 확인한다. 즉, 학습이 거의 완벽히 수렴한 상태에서 각 클래스의 피처가 클래스 평균에 집중하고, 더티 라벨 샘플은 해당 클래스 평균에 거의 동일하게 매핑되므로 입력 공간에서의 기하학적 차이가 사라진다.
다음으로 입력 그래디언트 정규화(∝‖∇ₓL‖²) 를 손실에 추가한다. KRR에서는 정규화 항이 G = Σ_i (∇ₓk(x_i,·))ᵀ∇ₓk(x_i,·) 로 나타나며, 최적화 방정식은 (K+λI+κG)α=y 로 변한다. 여기서 κ는 정규화 강도이다. 정리 3.9는 자유도 df(κ)=tr
댓글 및 학술 토론
Loading comments...
의견 남기기