활성화 교란으로 신경망 구조 탐색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

APEX는 입력과 파라미터를 고정한 채 중간 활성값에 가우시안 잡음을 주입해 모델의 내부 표현을 직접 탐색한다. 작은 잡음에서는 샘플별 규칙성을 측정하고, 큰 잡음에서는 입력에 무관한 모델 고유의 출력 분포가 드러나며, 특히 백도어 공격 모델은 목표 클래스에 집중되는 현상을 보인다.

상세 분석

본 논문은 기존의 입력‑공간 혹은 파라미터‑공간 교란 방식이 내부 표현을 충분히 탐색하지 못한다는 한계를 지적하고, “Activation Perturbation for EXploration (APEX)”라는 새로운 프레임워크를 제안한다. APEX는 추론 단계에서 각 레이어의 활성값 aℓ에 독립적인 가우시안 잡음 ξℓ∼N(0,I)를 σ 스케일로 더한다. 이때 입력 x와 파라미터 θ는 고정되며, 잡음은 레이어마다, 그리고 여러 번의 전방 패스로 독립적으로 샘플링된다.

이론적으로 저자들은 잡음이 큰 경우와 작은 경우를 두 개의 구역으로 나눈다. 정리 3.1에 따르면, 각 레이어의 교란된 활성값 ˜aℓ는 σ·vℓ(잡음에만 의존)와 rℓ(x;σ)(입력에 의존)로 분해될 수 있다. σ가 충분히 크면 vℓ 항이 지배적이 되어 최종 로짓 s(x;σ)=σ·U·vL+e(x;σ) 형태가 된다. 여기서 e(x;σ)/σ는 σ→∞일 때 0에 수렴하므로, 예측은 입력 x와 무관하게 모델 자체가 만든 확률 분포에 수렴한다. 반대로 σ→0이면 원래의 결정 경계와 동일하게 동작한다. 따라서 APEX는 “샘플‑의존적 → 모델‑의존적” 전이 과정을 조절 가능한 파라미터 σ 하나로 구현한다.

입력 교란이 APEX의 특수 경우라는 점도 흥미롭다. 입력에 ε를 더하면 각 레이어의 활성값 변화 Δℓ(x,ε)=aℓ(x+ε)−aℓ(x)≈Jaℓ(x)·ε 로 1차 근사된다. 이는 Jacobian 이미지에 제한된 변형이므로 표현 공간 전체를 탐색하지 못한다. 반면 APEX는 자유롭게 전체 활성 공간에 잡음을 주입함으로써, 입력 교란이 도달할 수 없는 영역까지 조사한다.

실험에서는 두 가지 잡음 규모를 강조한다. 작은 잡음(σ≈0.1~0.2)에서는 “샘플 규칙성”을 측정한다. 저자들은 “escape noise”라는 지표를 도입해, 특정 샘플이 예측 라벨을 바꾸는 최소 잡음 크기를 측정하고, 이를 기존의 memorization score와 높은 상관관계를 보임을 확인한다. 또한, 라벨이 무작위로 섞인 모델과 정상 모델을 구분하는 데도 성공한다.

큰 잡음(σ≥2)에서는 입력에 무관한 “정상화된 출력 분포”가 나타난다. 특히 백도어 공격을 받은 모델은 이 분포가 목표 클래스에 강하게 집중되는 반면, 정상 모델은 보다 고르게 퍼진다. 이는 백도어가 내부 표현에 목표‑클래스 편향을 영구히 심어두었음을 의미한다.

또한, 저자들은 “두 클래스가 동일한 입력 분포를 공유하도록 라벨을 재배치한” 제어 실험을 수행한다. 이 상황에서 입력·파라미터 교란은 클래스 전이를 일으키지 못하지만, APEX는 잡음이 커질수록 재배치된 클래스 쪽으로 예측 확률이 점진적으로 이동한다. 이는 APEX가 실제 학습된 표현 구조를 반영한다는 강력한 증거이다.

전반적으로 APEX는 (1) 샘플‑레벨 규칙성 측정, (2) 모델‑레벨 구조·편향 탐지, (3) 기존 교란 방식이 놓치는 표현‑공간 정보를 드러내는 세 가지 장점을 제공한다. 구현이 간단하고, 추가 파라미터 튜닝 없이도 다양한 모델(ResNet‑18, ViT 등)과 데이터셋(CIFAR‑10, ImageNet)에서 적용 가능하다는 점도 실용성을 높인다.

활성화 교란으로 신경망 구조 탐색

초록

상세 분석

댓글 및 학술 토론

의견 남기기