클래스증분 연속학습의 단계간 적대적 공격 전이 연구
초록
본 논문은 클래스‑증분 연속학습(Class‑IL) 모델이 이전 학습 단계에서 만든 적대적 예제를 이후 단계에 그대로 적용했을 때도 높은 성공률을 보이는 ‘단계 전이 공격(stage‑transferred attack)’에 취약함을 최초로 규명한다. 모델 파라미터·특징 공간의 유사성, 학습 단계가 진행될수록 증가하는 Lipschitz 상수와 Hessian 스펙트럼 등으로 인한 점진적 강건성 감소가 주요 원인이며, 기존의 적대적 훈련 방어법은 이러한 전이 공격을 충분히 막지 못한다는 점을 실험적으로 입증한다.
상세 분석
본 연구는 연속학습 시나리오를 “단계(stage)”라는 시간 축으로 구분하고, 각 단계에서 학습된 모델 fθₜ을 이용해 적대적 예제 x′ₜ를 생성한 뒤, 이를 최종 단계 모델 fθ_T에 그대로 투입하는 “단계 전이 공격”을 정의한다. 실험은 두 가지 대표적인 벤치마크, Split‑MNIST(5단계, 2클래스씩)와 Split‑CIFAR‑100(10단계, 10클래스씩)에서 수행했으며, iCaRL, GDumb, ER‑ACE, ER‑AML 네 가지 연속학습 알고리즘을 적용하였다. 공격 기법으로는 FGSM, PGD, AutoAttack(AA) 세 가지를 사용했으며, ε=0.3(MNIST)·8/255(CIFAR‑100)로 설정하였다.
표 I·II의 결과는 초기 단계에서 만든 적대적 예제가 최종 단계에서도 70%~90% 수준의 공격 성공률(ASR)을 유지함을 보여준다. 특히 iCaRL과 GDumb은 초기 단계 FGSM 공격의 ASR이 최종 단계 직접 공격에 근접했으며, 단계 간 거리가 짧을수록 전이 성공률이 높아지는 경향을 보였다. 이러한 현상의 근본 원인으로 저자는 두 가지 메커니즘을 제시한다. 첫째, 단계 간 모델 파라미터와 내부 표현의 높은 유사성이다. 코사인 유사도와 CKA(Centered Kernel Alignment) 지표를 통해 초기 모델과 최종 모델 사이의 유사도가 높을수록 ASR 비율이 증가함을 정량적으로 확인하였다. 둘째, 학습이 진행될수록 모델 복잡도가 증가한다는 점이다. 각 단계별 평균 Lipschitz 상수 Lₜ와 마지막 레이어 Hessian의 최대 스펙트럼 λₘₐₓ를 측정한 결과, 두 지표 모두 단계가 진행될수록 상승했으며, 이는 결정 경계가 더 급격하고 복잡해져 적대적 교란에 취약해짐을 의미한다. 흥미롭게도 전이 공격은 비대칭적이었다. 표 III에서 확인할 수 있듯이, 후속 단계에서 만든 교란을 이전 단계에 적용하면 성공률이 크게 떨어졌는데, 이는 “강건성 감소”가 일방향적으로 진행된다는 것을 시사한다.
방어 측면에서는 기존의 적대적 훈련(AT) 기반 방법들을 그대로 적용했지만, 단계 전이 공격에 대한 방어 효과는 미미했다. 이는 AT가 현재 모델에 대한 로컬 최적화에 초점을 맞추는 반면, 연속학습에서는 모델 자체가 지속적으로 변형되기 때문에 이전 단계에서 학습된 교란이 여전히 유효하게 남아 있기 때문이다. 따라서 연속학습 환경에서는 새로운 형태의 방어 전략, 예를 들어 단계 간 모델 변동을 고려한 정규화 혹은 메모리 샘플에 대한 다중 단계 적대적 강화가 필요함을 암시한다.
전반적으로 이 논문은 연속학습 시스템이 실제 서비스에 투입될 때, 과거 버전 모델에 대한 접근 권한만으로도 최신 모델을 공격할 수 있는 실질적인 보안 위협을 제시한다. 모델 유사성 관리와 단계별 강건성 유지라는 두 축을 동시에 고려한 연구가 향후 필수적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기