연합학습을 위한 추적 가능한 블랙박스 워터마크 삽입 기법
초록
연합학습(FL) 환경에서 서버가 각 클라이언트에게 전달하는 모델에 고유한 블랙박스 워터마크를 삽입하고, 이를 통해 모델 유출 시 누가 유출했는지 추적할 수 있도록 설계한 TraMark 방법을 제안한다. 모델 파라미터를 메인 작업 영역과 워터마크 영역으로 분리하고, 마스크 기반 집계와 별도 워터마크 학습을 통해 메인 작업 성능 저하를 최소화하면서 워터마크 충돌을 방지한다. 실험 결과, 다양한 FL 설정에서 높은 추적 가능성과 원래 성능 유지가 확인되었다.
상세 분석
본 논문은 연합학습 시스템에서 발생하는 모델 유출 문제를 해결하기 위해 ‘추적 가능한 블랙박스 워터마크’를 정형화하고, 이를 실현하는 서버‑사이드 알고리즘 TraMark을 제시한다. 먼저 워터마크 데이터셋 D_w와 워터마크 δ를 정의하고, 블랙박스 환경에서 모델이 트리거 입력에 대해 사전에 지정된 출력을 내도록 학습한다. 핵심 아이디어는 모델 파라미터 공간을 ‘메인 작업 영역(M_main)’과 ‘워터마크 영역(M_water)’으로 분할하고, 각 클라이언트마다 고유한 D_w_i를 사용해 M_water에만 개별 워터마크를 삽입한다는 점이다. 이를 위해 서버는 기존 FedAvg의 단순 평균 대신 마스크 연산을 적용한 ‘Masked Aggregation’을 수행한다. 구체적으로 각 라운드에서 클라이언트가 전송한 업데이트 Δ_i를 M_main에만 평균하고, M_water는 그대로 유지하거나 별도 평균을 적용한다. 이후 서버는 각 클라이언트 모델 θ_î에 대해 워터마크 학습을 진행하는데, 이때 손실 함수 L_i는 D_w_i에 대한 백도어 손실이며, 학습률 η_w와 마스크 M_water를 이용해 파라미터 변화를 제한한다. 이렇게 하면 워터마크가 메인 작업 파라미터와 겹치지 않아 성능 저하를 최소화한다. 또한 워터마크 충돌 방지를 위해 서로 다른 D_w_i 간의 KL 발산이 사전 정의된 임계값 σ보다 크게 유지되도록 설계했으며, 이는 워터마크 데이터셋의 다양성 확보와 M_water 영역의 충분한 용량 확보가 필요함을 의미한다. 실험에서는 CIFAR‑10, FEMNIST 등 다양한 데이터와 비동기·비이기종 클라이언트 환경을 고려해 메인 작업 정확도 감소가 평균 0.54%에 불과함을 보였으며, 워터마크 검증 정확도는 95% 이상으로 높은 추적 가능성을 입증했다. 마지막으로 하이퍼파라미터(마스크 비율, 워터마크 학습 단계 τ_w 등)의 민감도 분석을 통해 메인 작업 성능과 추적 가능성 사이의 트레이드오프를 정량화하였다. 전체적으로 TraMark은 기존 백도어 기반 워터마크가 클라이언트 데이터에 의존하거나 파라미터 접근이 필요했던 한계를 극복하고, 서버‑사이드만으로 안전하고 확장 가능한 추적 가능한 블랙박스 워터마크 체계를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기