연합학습 모델의 라벨 플립 공격에 대한 실증적 내구성 분석
초록
본 논문은 연합학습 환경에서 라벨 플립 공격이 7가지 모델(MLR, SVC, MLP, CNN, Random Forest, XGBoost, LSTM)에 미치는 영향을 10명·100명 클라이언트 시나리오에서 실험적으로 평가한다. 공격 강도(악성 클라이언트 비율·플립 비율)를 10%~100% 구간으로 변화시키며 정확도 감소 양상을 3차원 그래프로 제시한다. 결과는 모델마다 공격 유형에 대한 내구성이 다르며, 일부는 악성 클라이언트 수에 강하고 일부는 플립 비율에 강함을 보여준다.
상세 분석
본 연구는 연합학습(Federated Learning) 시스템에서 가장 기본적인 데이터 중독 공격인 라벨 플립(label‑flipping) 공격의 실효성을 정량적으로 평가한 점에서 의미가 크다. 먼저 실험에 사용된 데이터셋은 MNIST라는 고전적인 이미지 분류 벤치마크이며, 이는 10개의 클래스로 균형 잡힌 구조를 가지고 있어 라벨 변조 효과를 명확히 드러낼 수 있다. 그러나 이미지 도메인에 국한된 점은 결과의 일반화 가능성을 제한한다는 점을 지적한다.
모델군은 전통적인 선형·커널 기반 방법(MLR, SVC)부터 심층 신경망(CNN, MLP, LSTM)까지, 그리고 트리 기반 앙상블(Random Forest, XGBoost)까지 폭넓게 선정하였다. 이는 라벨 플립 공격이 모델 구조에 따라 어떻게 다르게 전파되는지를 포괄적으로 살펴볼 수 있게 한다. 특히 트리 기반 모델에 대해서는 FedAvg 대신 bagging 집계 방식을 적용했는데, 이는 파라미터 평균이 의미가 없는 경우에도 집계가 가능하도록 설계된 실용적인 선택이다.
실험 설계는 두 축(악성 클라이언트 비율, 라벨 플립 비율)을 10% 단위로 10단계씩 변동시켜 100개의 조합을 만든 뒤, 각각 10명·100명 클라이언트 환경에서 수행하였다. 각 조합에 대해 3차원 정확도 곡면을 그려 시각화했으며, 이는 공격 강도와 모델 성능 사이의 비선형 관계를 직관적으로 파악할 수 있게 한다.
결과적으로 MLR은 기본 정확도가 낮아 다른 모델에 비해 상대적으로 큰 절대적 손실을 보였지만, SVC와 MLP는 클라이언트 수가 증가해도 정확도 저하가 미미했다. 반면 CNN은 높은 기본 정확도에도 불구하고 라벨 플립 비율이 증가할수록 급격히 성능이 떨어졌으며, Random Forest와 XGBoost는 클라이언트 수가 늘어날수록 정확도가 크게 감소하는 경향을 보였다. 이러한 차이는 각 모델이 로컬 업데이트를 전역 모델에 반영하는 방식과, 라벨 노이즈에 대한 내재적 견고성(예: 소프트맥스 기반 확률 분포 vs. 결정 트리의 분할 기준) 차이에서 비롯된 것으로 해석할 수 있다.
또한 논문은 “악성 클라이언트 비율이 적고 라벨 플립 비율이 높을 때”와 “악성 클라이언트 비율이 높고 라벨 플립 비율이 낮을 때” 두 극단 상황에서 모델별 내구성을 비교하였다. 예를 들어, LSTM은 다수의 악성 클라이언트가 존재하더라도 라벨 플립 비율이 낮으면 비교적 안정적인 성능을 유지했으며, 반대로 소수의 악성 클라이언트가 대량의 라벨을 뒤바꿀 경우 급격히 정확도가 하락했다. 이는 시계열/순차 데이터에 특화된 LSTM이 로컬 데이터 분포 변화에 민감하게 반응한다는 점을 시사한다.
한편, 방어 메커니즘으로는 서버 측에서 이상치 탐지를 통한 업데이트 거부를 적용했지만, 구체적인 탐지 알고리즘이나 방어 효과에 대한 정량적 분석은 부족하다. 이는 향후 연구에서 라벨 플립 공격에 대한 탐지·완화 기법을 통합 평가할 필요성을 강조한다.
전체적으로 본 연구는 연합학습 환경에서 라벨 플립 공격의 파라미터(악성 클라이언트 비율·플립 비율)가 모델 성능에 미치는 영향을 체계적으로 정량화했으며, 모델 선택 시 공격 시나리오를 고려해야 함을 실증적으로 보여준다. 다만, 단일 데이터셋·단일 공격 유형에 국한된 점, 방어 메커니즘 평가 부족, 하이퍼파라미터 튜닝 범위 제한 등은 향후 연구에서 보완되어야 할 한계점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기