형태 기반 적대적 정화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ShapePuri는 Signed Distance Function(SDF)으로 객체의 형태 정보를 명시적으로 제공하고, Global Appearance Debiasing(GAD)으로 텍스처 의존성을 완화하여 적대적 공격에 강인한 이미지 분류기를 학습한다. 훈련 시 다섯 개의 입력 흐름을 이용해 형태·외관·원본을 동시에 최적화하고, 추론 단계에서는 추가 모듈 없이 기존 분류기와 동일한 속도로 동작한다. ImageNet에서 AutoAttack 기준 81.64%의 강인 정확도를 달성하며, 기존 diffusion 기반 방어보다 7% 이상 높은 성능을 보인다.

상세 분석

본 논문은 적대적 방어를 “구조‑우선” 접근법으로 재정의한다. 기존 diffusion 기반 정화는 다단계 역샘플링으로 높은 연산량과 세부 정보 손실을 초래했지만, ShapePuri는 이러한 생성‑복원 과정을 배제하고 형태 정보를 직접 모델에 주입한다는 점에서 차별화된다. 핵심은 두 가지 모듈에 있다. 첫 번째인 Shape Encoding Module(SEM)은 입력 이미지에 대해 Gaussian 블러 → Otsu 이진화 → 거리 변환을 거쳐 Signed Distance Function을 생성한다. SDF는 픽셀‑단위 거리 값을 연속적으로 제공하므로, 작은 픽셀‑레벨 노이즈(즉, 적대적 교란)에도 불변성을 유지한다. 특히, 내부·외부 거리 차이를 이용한 SDF는 객체 경계 근처에서 급격한 기울기를 보이며, 이는 역전파 시 형태‑관련 특징을 강조하는 신호로 작용한다. 논문은 SDF와 원본 적대 이미지의 element‑wise 곱셈(I_fusion = I_adv ⊙ (1+β·SDF))을 통해 형태 강조를 구현하고, β 파라미터로 형태 영향도를 조절한다.

두 번째 모듈인 Global Appearance Debiasing(GAD)은 무작위 shallow convolution과 비선형 변환을 적용해 전역 색·텍스처 편향을 감소시킨다. 이는 “appearance bias”를 완화함으로써 모델이 텍스처에 과도하게 의존하는 현상을 방지하고, 형태 기반 신호에 더 큰 가중치를 부여하도록 유도한다. GAD는 훈련 시 clean·adversarial 이미지 모두에 적용되며, 손실 함수 L_GAD는 두 경우 모두 교차 엔트로피를 최소화한다.

훈련 과정은 다섯 개의 병렬 스트림(원본 clean, GAD‑processed clean, 원본 adversarial, GAD‑processed adversarial, SDF‑fused adversarial)으로 구성된다. 각각에 대해 교차 엔트로피 손실(L_clean, L_adv, L_SDF, L_GAD)을 계산하고, 이를 가중합해 전체 손실 L_total을 만든다. 이렇게 하면 모델이 형태·외관·원본 모두에서 일관된 예측을 학습하게 된다. 중요한 점은 추론 시 SEM·GAD가 완전히 제거된다는 것이다. 즉, 방어 효과는 훈련 단계에서 학습된 내부 파라미터에 내재화되며, 추가 연산 비용이 발생하지 않는다.

실험에서는 ImageNet‑1k 데이터셋에 대해 AutoAttack(다중 공격 앙상블) 기준 81.64%의 강인 정확도와 84.06%의 클린 정확도를 기록한다. 이는 기존 diffusion‑based 방어(DiffPure, GDMP 등)가 70%대에 머물던 것을 크게 넘어서는 수치이며, 특히 “80% 강인 정확도 돌파”라는 새로운 벤치마크를 설정한다. 또한, 논문은 FLOPs와 지연 시간 측면에서 diffusion 모델 대비 거의 0에 가까운 오버헤드임을 강조한다.

한계점으로는 SDF 생성 과정에서 전처리(가우시안 블러, Otsu 임계값)와 마스크 정제 단계가 추가되지만, 이는 훈련 시에만 수행되며 추론 비용에 영향을 주지 않는다. 또한, SDF는 2D 이미지에 대한 형태 정보를 제공하지만, 복잡한 배경이나 다중 객체가 겹치는 경우 마스크 추출 정확도가 방어 성능에 영향을 미칠 수 있다. 향후 연구에서는 멀티‑스케일 SDF, 혹은 3D 형태 힌트를 활용한 확장 및 다양한 데이터셋(예: 의료 영상)에서의 일반화 검증이 필요하다.

전반적으로 ShapePuri는 “형태‑우선, 외관‑비편향”이라는 두 축을 통해 적대적 방어를 효율적으로 구현한 사례이며, diffusion 기반 방법이 갖는 고비용·정보 손실 문제를 해결하면서도 강인 정확도에서 새로운 기록을 세운 점이 가장 큰 공헌이라 할 수 있다.

형태 기반 적대적 정화

초록

상세 분석

댓글 및 학술 토론

의견 남기기