연합 추천 시스템 서브그룹 독성 공격 Spattack

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Spattack은 연합 학습 기반 추천 시스템에서 특정 사용자 서브그룹만을 목표로 하는 독성 공격을 제안한다. 사용자 임베딩을 근사하고, 대비 학습·클러스터링으로 그룹을 구분한 뒤, 타깃 아이템을 선택적(프로모션/디프로모션)으로 조작해 목표 그룹에만 높은 노출을 달성한다.

상세 분석

본 논문은 연합 추천 시스템(FedRec)에서 기존의 전체 사용자 그룹을 대상으로 하는 독성 공격이 갖는 탐지 위험성을 극복하고자, 특정 서브그룹만을 겨냥하는 “서브그룹 독성 공격”이라는 새로운 위협 모델을 정의한다. 공격자는 공개된 아이템 메타데이터와 자신이 제어하는 소수(0.1%)의 악성 클라이언트만을 이용해 두 단계의 파이프라인을 수행한다. 첫 번째 단계는 “근사(Approximation)” 단계로, 공격자는 관심 아이템 집합 V_in을 활용해 타깃 그룹과 비타깃 그룹의 사용자 임베딩을 각각 u_t 와 u_n 으로 근사한다. 타깃 그룹은 V_in을 긍정 샘플로, 타깃 아이템 V_op 을 부정 샘플로 사용해 손실 L_app_t 을 최소화하고, 비타깃 그룹은 무작위 샘플 V_n 을 긍정 샘플로 삼아 L_app_n 을 최소화한다. 이때 임베딩 공간에서 두 그룹이 겹치지 않도록 대비 학습(contrastive learning) 기반의 “그룹 간 반발(Repulsion)” 손실을 추가하고, V_in에 속한 아이템과 의미적으로 유사한 아이템을 클러스터링해 V_rel 을 확장함으로써 근사의 구분력을 강화한다. 두 번째 단계는 “프로모션(Promotion)” 단계이다. 근사된 u_t 와 u_n 을 고정한 상태에서, 타깃 아이템 V_op 의 임베딩 e_V 과 모델 파라미터 Θ 를 학습한다. 타깃 그룹에 대해서는 V_op 을 긍정 샘플로 사용해 L_pro_t 을 최소화하고, 비타깃 그룹에 대해서는 V_op 을 부정 샘플로 사용해 L_pro_n 을 최소화한다. 여기서 핵심은 두 손실을 가중치 α 로 조절하는 적응형 계수 튜닝 메커니즘이다. α는 각 라운드에서 ER@K (Exposure Ratio)값을 모니터링해 목표 그룹의 노출을 높이면서 비목표 그룹의 노출 감소를 균형 있게 유지하도록 동적으로 업데이트된다. 실험은 ML‑100K, MovieLens‑1M, Steam 데이터셋을 사용했으며, 악성 클라이언트 비율을 0.1%까지 낮춰도 ER@5 에서 타깃 그룹에 대해 0.85 이상, 비타깃 그룹에 대해서는 0.15 이하의 노출 비율을 달성했다. 또한, 기존의 대표적 방어 기법(예: Krum, Median, Trimmed Mean)에도 강인성을 보이며, 전체 추천 정확도(NDCG, Hit@10) 손실을 최소화한다. 논문은 또한 공격 성공에 영향을 미치는 요인으로 V_in 의 선택 편향, 클러스터링 품질, 대비 학습의 마진 파라미터 등을 분석하고, 향후 방어를 위한 사용자 임베딩 정규화와 그룹 간 거리 최소화 전략의 필요성을 제시한다.

연합 추천 시스템 서브그룹 독성 공격 Spattack

초록

상세 분석

댓글 및 학술 토론

의견 남기기