연합학습 백도어 방어를 위한 대표주의 어텐션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연합학습 환경에서 백도어 공격을 탐지하기 위해 기존의 이상치 중심 방어를 넘어, 백도어가 유지되어야 하는 일관성 제약을 활용한 FeRA(대표주의 어텐션) 방어 프레임워크를 제안한다. 대표 공간의 분산 억제와 정규화된 업데이트 크기를 동시에 분석하여 악성 클라이언트를 정확히 식별한다.

상세 분석

FeRA는 백도어 공격이 수백 라운드에 걸쳐 트리거 활성화를 지속해야 한다는 ‘일관성’ 요구를 탐지 표면으로 삼는다. 이를 위해 저자는 대표(embedding) 공간의 스펙트럼 및 공간적 분산을 측정하는 두 종류의 어텐션 점수를 정의하고, 파라미터 공간에서는 방향성 어텐션과 상호 유사도, 스펙트럴 노름 비율을 계산한다. 일관성 필터는 낮은 분산, 낮은 방향성 어텐션, 높은 상호 유사도를 동시에 만족하는 클라이언트를 악성으로 판단한다. 반면 노름 인플레이션 필터는 스펙트럴 노름이 비정상적으로 확대된 업데이트를 탐지한다. 이러한 이중 메커니즘은 공격자가 하나의 지표만을 위장하더라도 다른 차원에서 드러나는 특징을 포착한다는 점에서 기존의 단일 메트릭 기반 방어와 근본적으로 차별화된다. 실험에서는 IID와 비IID 환경 모두에서 6개 데이터셋, 9가지 공격, 3가지 모델 아키텍처를 대상으로 평가했으며, FeRA는 평균 백도어 정확도 1.67%를 달성하면서 정상 정확도는 비공격 기준 대비 1.5% 이내로 유지한다. 특히, 모델 교체 공격, 분산 백도어 공격, 적응형 스케일링 공격 등 다양한 공격 시나리오에서 기존 방어(FoolsGold, FLAME, MKrum 등)를 크게 앞선 성능을 보였다. 코드가 공개돼 재현 가능성도 확보하였다.

연합학습 백도어 방어를 위한 대표주의 어텐션

초록

상세 분석

댓글 및 학술 토론

의견 남기기