뉴럴 콜랩스로 배후 공격을 청소하다: 트로이 목마 방어의 새로운 패러다임
초록
본 연구는 신경망의 최종 특징 표현이 단순한 기하학적 구조로 수렴하는 ‘뉴럴 콜랩스’ 현상과 트로이 목마(배후) 공격 간의 상관관계를 최초로 규명했습니다. 트로이 목마 공격이 뉴럴 콜랩스의 대칭적 수렴을 방해한다는 실증적 증거를 바탕으로, 아키텍처와 데이터셋에 구애받지 않는 경량화된 모델 정화 알고리즘을 제안합니다. 이 방법은 공격자의 트리거에 대한 사전 지식 없이도 배후 공격을 효과적으로 제거하면서 원본 모델의 정확도를 유지합니다.
상세 분석
이 논문의 핵심 기술적 통찰은 트로이 목마 공격의 비대칭성이 뉴럴 콜랩스(Neural Collapse, NC)가 지향하는 완벽한 대칭성과 근본적으로 충돌한다는 점입니다. NC는 과매개변수화된 신경망이 과적합 이후 단계(TPT)에서 보이는 현상으로, 네 가지 메트릭(NC1~NC4)으로 정량화됩니다. NC1은 클래스 내 특징 분산의 붕괴, NC2는 특징 평균 및 분류기 가중치가 단체 등각태이트프레임(Simplex ETF)으로 수렴하는 정도, NC3는 두 구조의 자기 쌍대성, NC4는 최근접 이웃 분류 규칙 준수를 측정합니다.
실험 결과, 트로이 목마에 감염된 모델은 모든 NC 메트릭에서 정상 모델보다 열화된 수렴을 보였습니다. 특히, 공격 대상 클래스의 특징 평균 및 분류기 가중치 벡터의 노름이 다른 클래스에 비해 일관되게 작아지는 비대칭성이 관찰되었으며, 이는 NC2(Norm) 메트릭의 악화로 나타났습니다. 데이터셋(CIFAR-10, CIFAR-100, GTSRB)과 포이즈닝 비율에 따라 차이는 있으나, 전반적으로 NC의 약화가 명확히 확인되었습니다.
이러한 교란을 역이용한 저자들의 정화 알고리즘은 정교합니다. 핵심은 트로이 목마로 인해 훼손된 NC의 대칭성을 복원하는 것입니다. 구체적으로, 최종 분류기 가중치 행렬 W와 중심화된 특징 평균 행렬 M을 대상으로, NC2와 NC3 메트릭을 최소화하는 방향으로 W의 행(각 클래스에 해당하는 가중치 벡터)을 조정합니다. 이는 효과적으로 대상 클래스의 가중치 벡터 노름을 다른 클래스와 동일한 수준으로 끌어올리고, 전체 구조를 ETF에 가깝게 정렬함으로써 트리거에 의존하는 비정상적인 의사결정 경로를 무력화합니다. 기존 방법들이 모델 압축(성능 하락 우려)이나 트리거 재구성(트리거 유형에 대한 가정 필요)에 의존한 것과 달리, 이 방법은 순수히 모델 내부 표현의 기하학적 속성만을 이용하므로 경량이며 일반화 가능성이 매우 높습니다. ViT를 포함한 대규모 트랜스포머 아키텍처에서의 우수한 성능은 이러한 장점을 입증합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기