스파이크 호환 그라디언트 기반 SNN 적대적 공격 탐구

** 스파이킹 신경망(SNN)은 바이너리 스파이크와 시간적 동역학을 이용해 뇌의 신경 회로를 모방한다. 이러한 특성 때문에 SNN은 저전력 neuromorphic 하드웨어에 널리 적용되고 있지만, 보안 측면에서는 아직 충분히 연구되지 않았다. 본 논문은 SNN에 대한 적대적 공격을 체계적으로 탐구하고, 기존 ANN 기반 공격이 직면하는 두 가지 핵심 난관—그라디언트와 입력 형식 불일치, 그리고 그라디언트 소실—을 해결하는 새로운 방법론을 제시한다. 우선, 최근 BPTT(Back‑Propagation Through Time) 기반 학습이 SNN에 도입되면서 시공간(gradi‑temporal) 그라디언트를 정확히 얻을 수 있게 되었다. 이를 활용해 공격 파이프라인을 구성했으며, 전체 흐름은 (1) 순방향 전파로 모델 예측 획득, (2) 역방향 전파로 입력 그라디언트 계산, (3) 입력 업데이트로 적대적 예시 생성이다. 그러나 SNN의 입력은 연속적인 실수값이 아니라 0/1 스파이크이므로, 연속 그라디언트를 그대로 적용하면 형식 불일치가 발생한다. 또한 LIF 뉴런의 발화 함수는 거의 0에 가까운 미분값을 가지므로, 특정 시점에서는 그라디언트가 전부 0이 되어 업데이트가 멈춘다. 이를 해결하기 위해 두 가지 핵심 모듈을 설계했다. 첫 번째는 Gradient‑to‑Spike(G2S) 변환기로, 연속 그라디언트를 부호(sign)와 절대값을 이용해 ternary(−1,0,1) 형태로 변환한다. 변환 과정에서 확률적 샘플링을 적용해 평균적인 변형 크기를 제어하고, 오버플로우를 방지하기 위해 정규화 스케일링을 수행한다. 결과적으로 G2S는 스파이크 입력과 동일한 이산 구조를 유지하면서도 원래 그라디언트가 전달하는 방향 정보를 보존한다. 두 번째는 Restricted Spike Flipper(RSF)이다. 입력 그라디언트가 전부 0인 경우, RSF는 사전에 정의된 전환 비율(turnover rate)에 따라 무작위로 스파이크를 0↔1 전환한다. 이때 전환 비율은 공격 강도와 시각적 왜곡을 균형 있게 조절하도록 설계되었으며, 전환이 과도하면 입력 신호 자체가 손상될 위험이 있다. 또한 손실 함수와 penultimate layer의 발화 임계값이 공격 성공률에 미치는 영향을 정량적으로 분석했다. 교차 엔트로피(CE) 손실을 사용할 경우, 특정 임계값 구간에서 그라디언트가 거의 0에 수렴하는 “함정(trap) 영역”이 형성되어 공격이 어려워진다. 반면 평균 제곱 오차(MSE) 손실에서는 이러한 현상이 덜 나타난다. 저자들은 임계값을 미세 조정함으로써 CE 손실에서도 함정을 탈출하고 공격 성공률을 크게 향상시켰다. 실험은 N‑MNIST, CIFAR10‑DVS와 같은 neuromorphic 데이터셋뿐 아니라 MNIST, CIFAR10과 같은 정적 이미지 데이터셋에서도 수행되었다. BIM(Iterative Gradient Sign Method) 기반 반복 공격을 적용했으며, 대부분의 실험에서 99% 이상의 성공률을 기록했다. 동일한 공격 파라미터를 ANN에 적용했을 때보다 SNN이 상대적으로 낮은 성공률을 보였으며, 이는 스파이크 기반 전송 메커니즘이 입력 변동에 대해 일정 수준의 내성을 제공함을 시사한다. 결론적으로, 본 논문은 SNN 특유의 시공간 동역학을 고려한 그라디언트 기반 적대적 공격 파이프라인을 최초로 구축하고, G2S와 RSF 모듈을 통해 형식 불일치와 그라디언트 소실 문제를 효과적으로 해결한다. 또한 손실 함수와 발화 임계값 튜닝이 공격 효율에 미치는 영향을 체계적으로 탐구함으로써, 향후 SNN 보안 연구와 방어 메커니즘 설계에 중요한 기초 자료를 제공한다. **

스파이크 호환 그라디언트 기반 SNN 적대적 공격 탐구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기