연합 자기지도 학습 백도어 공격을 위한 환각 양성 얽힘

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연합 자기지도 학습(FSSL) 환경에서 백도어를 효율적으로 삽입하기 위해 환각 기반 양성 샘플 생성과 특징 얽힘을 결합한 HPE(Hallucinated Positive Entanglement) 방법을 제안한다. 합성 양성 샘플을 통해 백도어 특징의 활용도를 높이고, 트리거와 백도어 샘플을 표현 공간에서 강하게 결합한다. 또한 파라미터 선택적 오염과 전역 모델과의 근접성을 유지하는 업데이트 전략으로 공격의 은밀성·지속성을 강화한다. 실험 결과, CIFAR‑10, GTSRB, STL‑10, CIFAR‑100, ImageNet‑100 등에서 기존 공격보다 높은 성공률과 방어 회피 능력을 보였다.

상세 분석

HPE는 연합 자기지도 학습(FSSL)에서 발생하는 두 가지 핵심 문제, 즉 제한된 오염 샘플의 활용 효율 저하와 다라운드 모델 집계 과정에서 백도어 신호가 희석되는 현상을 동시에 해결한다. 첫 번째 단계인 환각 기반 양성 증강은 기존의 포이즈드 샘플을 기준으로 고난이도 양성 샘플을 합성한다. 구체적으로, MoCo 기반 인코더에서 추출한 키 벡터 v_k를 정규화된 구면에 투사하고, k‑means 클러스터링을 통해 얻은 프로토타입 집합 P 중 가장 가까운 프로토타입 P*와 임의의 다른 프로토타입 P_base 사이의 대원곡선을 따라 이동시켜 v_H를 생성한다. 이 과정은 “Hierarchy Selector”라는 제약을 두어 v_H가 동일한 프로토타입에 속하면서도 원본 v_k와 충분히 거리두도록 설계된다. 결과적으로 백도어 트리거가 포함된 샘플들의 표현 분포가 인코더 내부에서 넓게 퍼지며, 제한된 오염 비율에도 불구하고 백도어 특징이 강하게 학습된다.

두 번째 단계인 특징 얽힘은 합성된 양성 샘플 v_H와 실제 포이즈드 샘플 v_{+Δ} 사이의 코사인 유사성을 최대화하는 손실 L_BFE를 도입한다. 이는 트리거와 목표 클래스 사이의 잠재적 연관성을 표현 공간에서 직접 결합시켜, downstream fine‑tuning 단계에서도 트리거가 목표 클래스로 일관되게 매핑되도록 만든다.

마지막으로 파라미터 선택적 오염과 근접성 제약을 적용한다. 공격자는 전역 모델 W_global과의 파라미터 차이를 L2 norm으로 제한하면서, 변동성이 낮은 파라미터(예: 배치 정규화의 스케일 파라미터)만을 선택적으로 변형한다. 이렇게 하면 모델 업데이트 시 백도어가 급격히 변하지 않아 탐지 위험이 감소하고, 여러 라운드에 걸쳐 백도어 신호가 유지된다.

실험에서는 BADFSS와 EmInspector 등 기존 공격·방어 기법과 비교했을 때, 공격 성공률(Attack Success Rate, ASR)이 10‑20%p 이상 향상되었으며, 클린 정확도( Clean Accuracy, CA) 감소는 미미했다. 또한 FLARE, Foolsgold, FLAME 등 집계‑레벨 방어를 적용해도 HPE는 높은 ASR을 유지했다. 이러한 결과는 HPE가 백도어 특징을 표현 공간에 효과적으로 내재화하고, 연합 학습의 집계 과정에서도 신호 손실을 최소화한다는 것을 입증한다.

연합 자기지도 학습 백도어 공격을 위한 환각 양성 얽힘

초록

상세 분석

댓글 및 학술 토론

의견 남기기