실용적인 보안 집계 프로토콜을 활용한 연합 학습

본 논문은 연합 학습(Federated Learning) 환경에서 사용자 개인 데이터의 프라이버시를 보장하면서 대규모 모델 업데이트를 효율적으로 수행하기 위한 보안 집계(Secure Aggregation) 프로토콜을 설계하고, 실제 모바일 디바이스에 적용 가능한 형태로 구현한다. 연합 학습은 각 사용자가 로컬 데이터로 모델을 학습하고, 그 기울기(gradient) 혹은 파라미터 업데이트를 서버에 전송해 전역 모델을 갱신하는 방식이다. 그러나 기울기 자체에도 개인 식별 정보가 포함될 수 있어, 서버가 개별 사용자의 업데이트를 직접 관찰하면 프라이버시 침해 위험이 있다. 따라서 서버가 오직 전체 합계만을 알 수 있도록 하는 보안 집계가 필요하다. 논문은 먼저 보안 집계가 만족해야 할 네 가지 실용적 요구사항을 제시한다. 첫째, 모델 파라미터는 수백만 차원의 고차원 벡터이므로 프로토콜이 대규모 벡터를 효율적으로 처리해야 한다. 둘째, 매 라운드마다 참여 사용자가 매번 바뀔 수 있기 때문에 통신 효율성이 중요하다. 셋째, 모바일 디바이스는 전원·네트워크 연결이 불안정해 일부 사용자가 중도에 탈락할 가능성이 높으며, 프로토콜은 이러한 탈락에 강인해야 한다. 넷째, 모바일 디바이스는 서로 직접 통신하거나 인증된 채널을 구축하기 어려우므로, 서버‑중개 비인증 네트워크 모델 하에서도 가능한 최강 보안을 제공해야 한다. 이러한 요구사항을 충족시키기 위해 논문은 4단계에 걸친 프로토콜을 점진적으로 발전시킨다. 1. **Protocol 0 – 일회용 패드 기반 마스킹** 모든 사용자가 서로에게 무작위 벡터 sᵤ,ᵥ를 교환하고, pᵤ,ᵥ = sᵤ,ᵥ – sᵥ,ᵤ (mod R) 로 마스크를 만든다. 각 사용자는 자신의 입력 xᵤ에 모든 pᵤ,ᵥ를 더해 yᵤ를 서버에 전송한다. 서버는 yᵤ들을 합산하면 마스크가 상쇄되어 정확한 합을 복원한다. 이 단계는 완전한 프라이버시를 제공하지만, 한 명이라도 yᵤ를 전송하지 못하면 해당 사용자의 마스크가 남아 전체 합이 왜곡된다. 2. **Protocol 1 – 비밀 공유와 탈락 복구** 사용자는 사전에 공개·비밀 키쌍을 교환하고, 각 pᵤ,ᵥ에 대해 (t, n)‑threshold 비밀 공유(예: Shamir)를 수행한다. 서버는 일정 시간 동안 충분히 많은 사용자가 참여했는지 확인하고, 탈락한 사용자를 식별한다. 이후 살아있는 사용자는 탈락 사용자의 비밀 공유를 제공받아 마스크를 복구한다. 이 과정은 탈락 복구를 가능하게 하지만, 서버가 의도적으로 특정 사용자를 탈락 처리하면 해당 사용자의 마스크가 완전히 해제돼 프라이버시가 손상된다. 3. **Protocol 2 – 이중 마스킹으로 보안 강화** 각 사용자는 추가 랜덤 벡터 bᵤ를 생성하고, yᵤ = xᵤ + bᵤ + Σ₍ᵥ∈U₁₎ pᵤ,ᵥ 로 전송한다. 서버는 탈락 사용자의 pᵤ,ᵥ를 복구하거나 살아있는 사용자의 bᵤ를 복구하도록 선택할 수 있다. 그러나 두 종류를 동시에 얻을 수 없도록 설계돼, 서버가 어떤 경우에도 xᵤ를 완전히 드러내지 못한다. 이 구조는 정직하지만 호기심 많은 서버(T1)에게 보안을 보장하고, 더 강력한 위협 모델(T2, T3)에서는 임계값 t을 각각 2n/3, 4n/5 로 높이면 안전성을 유지한다. 4. **Protocol 3 – 효율적인 비밀 교환** 모바일 디바이스는 직접적인 pairwise 보안 채널을 갖기 어렵다. 따라서 각 사용자는 Diffie‑Hellman 키쌍을 생성하고, 서버를 통해 공개키를 교환한다. 두 사용자 u, v는 DH 협약을 통해 공유 비밀 sᵤ,ᵥ를 도출하고, 이를 PRG로 확장해 고차원 마스크 pᵤ,ᵥ를 만든다. 이렇게 하면 실제 전송되는 데이터는 스칼라 시드와 비밀 공유(256비트)만으로 압축되며, 통신 복잡도는 O(k n) 수준으로 크게 감소한다. 서버는 각 사용자의 DH 비밀키 c_SK만을 수집하면 모든 pᵤ,ᵥ를 재구성할 수 있다. 5. **Protocol 4 – 실용적인 모바일 구현** 최종 단계에서는 초기 키 교환을 서버‑중개 방식으로 단순화한다. 서버가 MITM 공격을 수행할 가능성이 있지만, 프로토콜 전체가 전방 비밀성을 제공하므로 서버가 이후에 키를 탈취해도 과거 데이터는 보호된다. 또한, 코드베이스가 작고 검증 가능하도록 설계돼 신뢰 최소화(trust minimization)를 실현한다. **성능 평가** 실험에서는 16비트 정수 입력을 가정하고, 2¹⁰ 사용자와 2²⁰ 차원 벡터(≈1 MiB) 상황에서 전체 통신량이 원본 대비 1.73배, 2¹⁴ 사용자와 2²⁴ 차원 벡터(≈16 MiB) 상황에서는 1.98배에 불과했다. 이는 기존 Paillier 기반 혹은 DC‑net 기반 보안 집계가 요구하는 O(k n²) 혹은 높은 연산 비용에 비해 수십 배 효율적인 결과이다. 또한, 프로토콜은 t > n/2 임계값을 만족하는 한 최소 절반 이상의 사용자가 참여하면 정확한 합을 복원할 수 있어, 실제 모바일 환경에서 흔히 발생하는 사용자 탈락에 강인하게 동작한다. **결론** 본 논문은 연합 학습에 필요한 고차원, 대규모, 불안정한 모바일 환경을 고려한 실용적인 보안 집계 프로토콜을 제시한다. 단계별 설계와 이중 마스킹, DH 기반 비밀 교환, 서버‑중개 키 교환 등을 결합해 통신 효율성을 크게 개선하면서도 정직하지만 호기심 많은 서버 및 제한된 악의적 서버에 대한 보안을 보장한다. 이러한 설계는 실제 모바일 디바이스에 적용 가능하며, 연합 학습 시스템에서 사용자 프라이버시를 실질적으로 보호하는 데 중요한 기여를 한다.

실용적인 보안 집계 프로토콜을 활용한 연합 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기