딥러닝 파라미터를 은밀히 변조하는 Fault Sneaking 공격

본 논문은 딥러닝 모델이 하드웨어 수준에서 파라미터를 직접 변조하는 결함 주입 공격에 초점을 맞추고, 이를 은밀하게 수행할 수 있는 새로운 프레임워크인 Fault Sneaking Attack을 제안한다. 먼저, 공격자는 특정 입력 이미지 집합 S에 대해 원하는 목표 라벨 T로 오분류하도록 파라미터 변조 δ를 설계한다. 동시에 나머지 이미지 R‑S에 대해서는 원래 라벨 L을 유지하도록 요구한다. 이러한 두 가지 제약을 수식화하면, 파라미터 변조량을 측정하는 D(δ)와 분류 손실을 나타내는 G(θ+δ, X, T, L)의 합을 최소화하는 최적화 문제가 된다. D(δ)는 ℓ₀(수정된 파라미터 수)와 ℓ₂(수정 크기) 중 하나를 선택해 정의한다. G는 목표 이미지에 대한 로그잇 차이를 최대화하는 C&W 스타일 손실 g(·)을 이용해, 첫 번째 항 G₁은 목표 이미지가 목표 라벨로 분류되도록 하고, 두 번째 항 G₂는 비목표 이미지가 기존 라벨을 유지하도록 하는 형태로 구성된다. 이 최적화 문제는 비선형·비볼록이며, 특히 ℓ₀ 규제는 미분 불가능하기 때문에 직접 해결이 어려운 점이 있다. 저자는 이를 해결하기 위해 교대 방향 승법법(ADMM)을 도입한다. ADMM은 보조 변수 z와 스케일된 라그랑주 승수 s를 도입해 원문제를 두 개의 서브문제로 분리한다. 첫 번째 서브문제는 z에 대한 ℓ₀ 혹은 ℓ₂ 최소화이며, 이는 각각 하드·소프트 임계값 함수를 통해 폐쇄형 해를 얻는다. 두 번째 서브문제는 δ에 대한 G(·) 최소화이며, 이는 기존의 적대적 공격에서 사용되는 로그잇 기반 손실을 최소화하는 문제와 동일하게 풀 수 있다. 각 반복마다 z와 δ를 교대로 업데이트하고, s를 갱신함으로써 전역 최적점에 수렴한다. 실험에서는 LeNet‑5 기반 MNIST와 VGG‑16 기반 CIFAR‑10 모델을 대상으로, S=10개의 이미지에 대해 임의의 목표 라벨을 지정하였다. 결과는 전체 테스트 정확도 손실이 MNIST에서 0.8%, CIFAR‑10에서 1.0%에 그쳤으며, 이는 기존의 휴리스틱 기반 Fault Injection 공격(정확도 손실 3.86%·2.35%)보다 크게 개선된 수치이다. 또한 ℓ₀와 ℓ₂ 규제를 교체해도 공격 성공률과 정확도 유지에 큰 차이가 없었으며, 파라미터 수정 수가 적을수록 레이저 빔이나 Row‑Hammer와 같은 물리적 결함 주입 기법의 실행 비용이 감소한다는 실용적 이점을 제공한다. 추가 분석에서는 모델마다 성공적인 오류 삽입 수 S에 상한이 존재함을 확인하였다. 실험에 사용된 네트워크에서는 S≈10이 최대였으며, 이는 DNN이 일정 수준의 파라미터 변조에 대해 내재적인 내성을 가지고 있음을 의미한다. 이러한 결과는 향후 방어 메커니즘 설계 시, 파라미터 수준의 변조에 대한 감지 및 복구 전략이 필요함을 시사한다. 논문의 주요 기여는 다음과 같다. (1) 다중 목표 라벨을 지정하고 모델 정확도를 유지하면서 파라미터를 최소 수정하는 스니킹 공격을 제안하였다. (2) ℓ₀와 ℓ₂ 규제를 모두 다룰 수 있는 일반화된 ADMM 프레임워크를 설계하여, 비분화 가능한 ℓ₀ 문제도 효율적으로 해결하였다. (3) 기존 휴리스틱 기반 방법보다 정확도 손실을 크게 줄이며, 파라미터 수정량을 최소화함으로써 실제 하드웨어 결함 주입 공격에 대한 실현 가능성을 높였다. (4) DNN의 파라미터 결함 내성을 정량적으로 분석하여, 향후 방어 연구에 대한 방향성을 제시하였다.

딥러닝 파라미터를 은밀히 변조하는 Fault Sneaking 공격

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기