회귀 신경망 적대적 공격과 수치 안정성 정규화
초록
본 논문은 회귀 문제에 적용되는 신경망이 겪는 적대적 공격을 조사하고, 이러한 공격이 모델의 수치적 불안정성에서 비롯된다는 가설을 제시한다. 저자들은 수치 안정성을 강화하는 정규화 기법을 설계하여, 기존 방어 방법보다 높은 방어 성능과 학습된 함수의 안정성을 동시에 달성함을 실험을 통해 입증한다.
상세 분석
이 연구는 기존 적대적 공격 연구가 주로 분류 문제에 국한되어 있다는 점을 지적하고, 회귀 설정에서도 동일한 위협이 존재함을 실증한다. 회귀 네트워크는 출력이 연속값이므로 작은 입력 변동이 출력에 비례적으로 큰 오차를 일으킬 수 있다. 저자들은 이러한 현상을 “수치 불안정성”이라고 정의하고, 모델이 입력 공간의 작은 변동에 과도하게 민감해지는 원인을 미분 가능성 및 가중치 스케일링의 불균형으로 분석한다.
핵심 방어 전략은 “수치 안정성 정규화(Numerical Stability Regularization, NSR)”이다. NSR은 두 가지 구성 요소로 이루어진다. 첫째, 입력에 미세한 잡음을 추가한 후 원본 입력과의 출력 차이를 최소화하도록 하는 로버스트 손실을 도입한다. 둘째, 네트워크 내부의 기울기와 라플라시안(2차 미분) 크기를 직접 제어하는 정규화 항을 손실에 포함시켜, 함수가 급격히 변하지 않도록 억제한다. 이 정규화 항은 ‖∇ₓ f(x)‖²와 ‖∇ₓ² f(x)‖² 형태로 구현되며, 자동 미분을 활용해 효율적으로 계산된다.
실험에서는 UCI 회귀 벤치마크와 이미지 기반 회귀(예: 깊이 추정) 데이터셋을 사용해 기존 방어 기법(예: 입력 변형, 가중치 정규화, 방어적 훈련)과 비교한다. 결과는 NSR이 공격 성공률을 평균 30% 이상 감소시키고, 동시에 테스트 손실을 5~10% 개선함을 보여준다. 특히, 공격 강도가 증가할수록 NSR의 방어 효과가 더욱 두드러지며, 이는 정규화가 모델의 Lipschitz 상수를 효과적으로 낮추는 데 기인한다는 해석이 가능하다.
또한, 저자들은 NSR이 모델의 수치 조건수(condition number)를 감소시켜, 학습 과정에서 발생할 수 있는 오버플로/언더플로 문제를 완화한다는 부수 효과도 보고한다. 이러한 결과는 수치 안정성을 직접 목표로 하는 정규화가 적대적 방어뿐 아니라 전반적인 모델 신뢰성을 향상시킬 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기