사전학습 인코더를 위한 제로희생 지속강인 방어
초록
ZePAD는 사전학습된 SSL 인코더를 한 번만 적대적 미세조정하면 다양한 다운스트림 작업에서 깨끗한 성능을 유지·향상시키고, 다운스트림-무관 적대적 예제(DAE)를 효과적으로 방어하는 이중‑branch 구조를 제안한다. MP‑AE‑Branch는 서로 다른 SSL 방법으로 학습된 두 인코더를 적대적 미세조정해 패턴 다양성을 확보하고, BMP‑Branch는 로컬 클린 데이터만으로 학습해 정상 샘플에 대한 기억을 보존한다. 두 branch의 confidence 차이를 이용한 Robust Federal Decision Mechanism(RFDM)으로 DAE를 자동 탐지하고, 단일 미세조정으로 지속적인 강인성을 제공한다. 11개의 SSL 모델·6개 데이터셋 실험에서 최대 73.86%의 강인성 향상과 29.20%의 클린 정확도 개선을 달성했다.
상세 분석
본 논문은 사전학습된 인코더가 다운스트림‑무관 적대적 예제(DAE)에 취약하다는 사실을 출발점으로, 기존 방어가 “작업별 적대적 미세조정 → 성능 저하”라는 트레이드오프에 머무는 한계를 짚는다. ZePAD는 두 가지 핵심 아이디어를 결합한다. 첫째, 서로 다른 SSL 프레임워크(예: SimCLR, MoCo, BYOL 등)로 사전학습된 두 인코더를 동시에 적대적 미세조정함으로써 패턴 다양성을 확보한다. 이는 공격자가 모든 인코더에 공통된 취약점을 찾기 어렵게 만들며, 단일 인코더에 비해 적대적 샘플에 대한 전이 강인성을 크게 높인다. 둘째, 로컬 클린 데이터만으로 별도 인코더(BMP‑Branch)를 학습해 “정상 데이터에 대한 기억”을 보존한다. 이 branch는 적대적 미세조정 과정에서 손실된 클린 성능을 회복시키는 역할을 한다.
두 branch는 각각 confidence score를 출력하고, RFDM은 이 점수를 비교해 최종 예측을 선택한다. 논문은 신경망이 학습 데이터와 유사한 입력에 대해 높은 posterior confidence를 부여한다는 기존 연구(예: Zhang et al., 2016)를 근거로, BMP‑Branch는 클린 샘플에 높은 confidence, MP‑AE‑Branch는 적대적 샘플에 높은 confidence를 보이는 현상을 이용한다. 따라서 별도의 적대적 샘플 탐지 모듈 없이도 DAE를 자동 식별할 수 있다.
손실 함수는 classification loss(Lc)와 feature‑distance loss(Lf)의 가중합(Lc+λLf)으로 구성된다. Lf는 코사인 거리 기반의 전역 구조를 유지하도록 설계돼, 적대적 샘플의 특징 분포를 클린 샘플과 유사하게 만든다. 이는 두 인코더가 서로 다른 특성을 학습하면서도 공통된 feature space를 공유하도록 유도한다.
실험에서는 11개의 최신 SSL 인코더와 6개의 이미지 데이터셋(CIFAR‑10, ImageNet‑100 등)에서 ZePAD를 적용했다. 비교 대상은 기존 적대적 미세조정(Gen‑AF, AdvEncoder 등)과 일반적인 클린 fine‑tuning이다. 결과는 ZePAD가 클린 정확도에서 평균 35%p 상승, 적대적 정확도에서 2070%p 향상을 보여, “제로희생”이라는 주장에 실증적 근거를 제공한다. 또한, 단일 미세조정으로 모든 다운스트림 작업에 적용 가능하다는 점에서 비용 효율성도 입증된다.
한계점으로는 두 개의 대형 인코더와 추가 BMP‑Branch를 동시에 유지해야 하는 메모리·연산 오버헤드가 존재한다는 점이다. 또한, RFDM의 threshold 설정이 데이터셋마다 민감하게 변할 수 있어, 실제 배포 시 자동 튜닝 메커니즘이 필요할 것으로 보인다. 향후 연구에서는 branch 수를 동적으로 조절하거나, 경량화된 모듈로 압축하는 방안을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기