활성화 복구와 희소성 활용으로 구현한 대규모 연합학습 공격 ARES

본 논문은 연합학습(Federated Learning, FL) 환경에서 클라이언트가 전송하는 모델 업데이트(gradient)만을 이용해도 개인 데이터가 유출될 수 있다는 점을 강조한다. 기존의 Gradient Inversion Attack(GIA)은 크게 수동(passive)과 능동(active) 두 종류로 나뉘며, 수동 공격은 실제 gradient와 가짜 샘플 gradient 간 차이를 최소화하는 최적화 과정을 통해 데이터를 복원한다. 그러나 배치 크기가 커질수록 gradient가 여러 샘플에 의해 혼합돼 복원 정확도가 급격히 떨어진다. 반면 능동 공격은 서버가 모델 파라미터나 구조를 조작해 특정 뉴런이 하나의 샘플만을 활성화하도록 설계함으로써, “linear layer leakage”를 이용해 직접 입력을 복원한다. 기존 능동 공격은 (i) 모델 구조를 비표준 형태로 바꾸어야 하고, (ii) FC 레이어의 출력 차원이 배치 크기보다 크게 필요하다는 제약이 있다. 이러한 제약은 실제 서비스에 적용하기 어렵게 만든다. 이에 저자들은 이러한 구조적 제약을 없애고, 대규모 배치에서도 높은 복원률을 유지할 수 있는 새로운 공격 프레임워크 ARES(Activation REcovery via Sparse inversion)를 제안한다. 핵심 아이디어는 다음과 같다. 1. **활성화 복구 문제를 희소 복구로 전환** FC 레이어 이전 연산을 “선형 변환 + 비선형 활성화”로 모델링하고, 비선형 함수를 노이즈가 포함된 스케일링 선형 매핑으로 근사한다. 이렇게 하면 활성화 벡터 y와 입력 x 사이의 관계를 y = A·x + ε 형태의 압축 센싱 문제로 볼 수 있다. 여기서 A는 기존 가중치 행렬, x는 입력의 희소 표현(예: DCT, Wavelet 등), ε는 비선형 근사 오차이다. 2. **Generalized Lasso를 이용한 복구** 압축 센싱 이론에서 알려진 바와 같이, A가 Restricted Isometry Property(RIP)를 만족하면 Lasso(ℓ₁ 정규화 최소제곱)로 x를 정확히 복원할 수 있다. 논문은 A가 랜덤 초기화된 가중치이면서도 충분히 RIP를 만족하도록 설계하고, λ 파라미터를 통해 노이즈에 대한 강인성을 조절한다. 3. **다중 샘플 복원을 위한 Imprint 기법** 기존 RtF(Recover the Feature)에서 제안된 imprint 방법을 차용해, FC 레이어의 bias를 조정함으로써 배치 내 각 샘플이 서로 다른 뉴런을 주로 활성화하도록 만든다. 이렇게 하면 하나의 뉴런이 하나의 샘플에 대응하게 되어, 각 뉴런에 대해 독립적인 Lasso 복구를 수행할 수 있다. 중요한 점은 뉴런 수가 배치 크기보다 작아도 imprint를 통해 충분히 구분이 가능하다는 것이다. 4. **이론적 보증** 저자들은 RIP 기반 복원 오차 상한을 수학적으로 도출하고, 기대 복원률을 배치 크기, 데이터 희소도, 노이즈 수준의 함수로 표현한다. 이를 통해 ARES가 언제, 어떤 조건에서 성공적으로 복원할 수 있는지를 정량적으로 제시한다. 5. **실험적 검증** - **데이터셋**: MNIST, CIFAR‑10, ImageNet, HAM10000, Lung‑Colon, WikiText, AudioMNIST 등 7개 데이터셋. - **모델**: 대표적인 CNN(ResNet‑like)과 MLP(3‑layer). - **비교 대상**: iDLG, GradInv, FedLeak, Fishing, RtF, TrapWeight, LOKI 등 기존 최첨단 공격. - **결과**: PSNR 기준 최대 7배 향상, 배치 크기 256까지도 높은 복원률 유지. 특히 대규모 배치에서 기존 능동 공격이 실패하는 경우에도 ARES는 안정적인 복원을 보여준다. - **방어 평가**: 차등 프라이버시(DP), 그래디언트 양자화·희소화, 데이터 증강, Secure Aggregation 등 5가지 방어 기법에 대해 실험했으며, ARES는 여전히 유의미한 복원 성능을 유지한다. 6. **공헌 요약** - 기존 능동 공격의 구조적 제약을 제거하고, 기존 FC 레이어만으로도 고품질 복원이 가능하도록 함. - 비선형 활성화를 희소 복구 문제로 전환함으로써 압축 센싱 이론을 적용, 이론적 복원 오차 상한을 제공. - Imprint 기법을 통해 배치 규모와 무관하게 다중 샘플 복원을 확장. - 다양한 데이터 유형과 방어 메커니즘에 대한 실험을 통해 실제 연합학습 시스템에서의 위험성을 강조. 결론적으로 ARES는 “활성화 → 희소 복구 → Lasso 최적화”라는 파이프라인을 통해, 모델 구조를 변경하지 않고도 대규모 연합학습 환경에서 강력한 프라이버시 침해를 가능하게 한다. 이는 현재 FL 시스템에 적용되는 방어 메커니즘이 충분히 강력하지 않음을 시사하며, 보다 근본적인 프라이버시 보호(예: 완전 동형 암호, 차등 프라이버시 강화, 모델 설계 단계에서의 정보 차단) 연구가 필요함을 강조한다.

활성화 복구와 희소성 활용으로 구현한 대규모 연합학습 공격 ARES

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기