협업 임계값 워터마킹: 연합 학습을 위한 비밀 공유 기반 모델 인증

협업 임계값 워터마킹: 연합 학습을 위한 비밀 공유 기반 모델 인증
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

연합 학습에서 K명의 클라이언트가 공동으로 모델을 학습할 때, (t, K) 임계값 워터마크를 비밀 공유와 안전한 집계 기법으로 삽입한다. t명 이상의 클라이언트가 모여야만 워터마크 키 τ를 복원하거나 검증 가능하며, 소수의 클라이언트는 키를 알 수 없고 워터마크를 제거할 수 없다. 실험은 CIFAR‑10/100 및 Tiny‑ImageNet에서 K=128까지 정확도 손실 없이 검출 가능(z≥4)을 확인하고, 90% 프루닝, 4‑bit 양자화, 20% 데이터 기반 파인튜닝 공격에도 강인함을 보였다.

상세 분석

이 논문은 연합 학습(FL) 환경에서 모델 소유권을 집단적으로 증명하기 위한 새로운 워터마킹 프레임워크를 제안한다. 핵심 아이디어는 Shamir 비밀 공유를 이용해 워터마크 키 τ를 K명의 클라이언트에게 (t, K) 임계값 형태로 분배하고, 각 클라이언트는 자신이 받은 공유 s_i 로부터 라그랑주 계수 λ_i 를 곱해 additive share w_i=λ_i s_i 를 만든다. 이렇게 하면 모든 w_i 를 합하면 τ가 되므로, 안전한 집계(Secure Aggregation) 과정을 통해 서버는 개별 w_i 를 알 수 없고 전체 합만을 관찰한다.

임베딩 단계에서는 각 라운드마다 클라이언트가 로컬 업데이트 Δθ_i^r 를 수행하고, 업데이트 크기의 지수 이동 평균(EMA)을 이용해 스케일링 팩터 scale_i 를 동적으로 조정한다. 모든 클라이언트는 scale_i 를 또다시 안전하게 집계해 전역 scale_total 을 얻고, 이를 w_i 에 곱해 θ_i^r 에 추가한다. 결과적으로 전역 모델 θ^r 은 (scale_total/K)·τ 만큼 워터마크 방향으로 이동한다. 이 과정은 클라이언트가 탈락하거나 부분 참여할 경우에도 |S_r|≥t이면 동일하게 동작하도록 설계되었으며, t명 미만이 참여하면 워터마크 삽입을 건너뛴다.

검증 단계는 흰색 상자(white‑box) 방식으로, τ 자체를 복원하지 않고도 ⟨θ_s, τ⟩ 내적을 직접 계산한다. t명 이상의 클라이언트는 라그랑주 계수를 이용해 τ를 재구성하거나, 공유만으로도 검증 통계량 d=∑λ_i⟨θ_s, s_i⟩ 를 구하고, 정규화된 z‑score = (d/(‖θ_s‖·‖τ‖) − μ)/σ 로 가설 검정을 수행한다. 따라서 키가 노출되지 않아 보안성이 유지된다.

실험에서는 CIFAR‑10, CIFAR‑100, Tiny‑ImageNet에 대해 K=128까지 확장성을 확인했으며, 기존 개별 워터마크 방식은 K≥16에서 검출률이 급격히 떨어지는 반면, 제안 방식은 z≥4를 지속적으로 유지한다. 정확도 손실은 0.5% 이하에 머물렀고, 프루닝(90%), 4‑bit 양자화, 그리고 20% 데이터로 파인튜닝한 적응형 공격에도 z‑score가 4.2 이상으로 회복되었다.

보안 분석에서는 (i) 서버가 개별 공유를 알 수 없으므로 τ를 유추할 수 없고, (ii) t‑1명 이하의 악의적 클라이언트 연합은 τ에 대한 정보가 완전히 독립적임을 증명한다. 또한, 커밋먼트 스킴을 사용해 τ를 공개적으로 커밋함으로써 무결성을 보장하고, DKG(분산 키 생성) 절차를 통해 신뢰할 수 있는 딜러가 없을 경우에도 동일한 보안 수준을 유지한다.

성능 측면에서는 매 라운드 한 번의 추가 안전 집계와 스케일 전파가 필요하지만, 통신·연산 오버헤드는 기존 FL 프로토콜 대비 선형 수준에 머물러 실용적이다. 한계점으로는 라그랑주 계수를 사전에 고정해야 하는 점, 그리고 워터마크 검증을 위해 모델 파라미터에 직접 접근할 수 있는 흰색 상자 환경이 필요하다는 점을 들 수 있다. 향후 연구에서는 검증을 블랙박스 API 수준으로 확장하거나, 비동기식 클라이언트 참여 모델에 대한 이론적 보장을 강화할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기