프라이버시 보존 연합 기초 모델을 위한 그룹 상대 보상 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FedGRPO는 연합 학습 환경에서 대형 서버 기반 기초 모델을 도메인 클라이언트의 지식으로 향상시키면서 데이터와 모델 파라미터를 교환하지 않는다. 경량 신뢰도 그래프를 이용해 질문별 전문가 클라이언트를 선택하고, 질문‑답변 및 풀이 과정을 정책으로 패키징해 클라이언트에게 전송한다. 클라이언트는 자체 평가 모델이나 정답 매칭을 통해 스칼라 보상만 반환하고, 서버는 그룹‑상대 보상 함수를 통해 이들을 집계해 정책을 업데이트한다. 결과적으로 통신량과 프라이버시 위험을 크게 낮추면서 기존 연합 기초 모델 방법보다 높은 다운스트림 정확도를 달성한다.

상세 분석

FedGRPO는 연합 기초 모델(FedFMs) 분야의 두 가지 핵심 난제—전문가 클라이언트 선정과 다중 평가 신호의 효율적 통합—를 동시에 해결하는 혁신적인 프레임워크이다. 첫 번째 모듈인 ‘competence‑based expert selection’은 서버가 보유한 소량의 보조 데이터(Dp)를 이용해 질문 임베딩을 생성하고, 코사인 유사도 기반 최근접 이웃 L개를 추출한다. 각 클라이언트는 이 이웃 샘플에 대해 자체 정확도(e_k)를 계산해 평균을 competence score r_p^k(x)로 반환한다. 서버는 이 점수를 기준으로 상위 M개의 전문가 집합 C(x)를 동적으로 구성한다. 이 과정은 라벨이 없는 질문에 대해서도 클라이언트의 도메인 전문성을 정량화할 수 있게 하며, 라벨이 존재하는 경우에는 정확히 정답 매칭을 활용해 높은 신뢰도를 확보한다.

두 번째 모듈은 Group‑Relative Policy Optimization(GRPO)에서 영감을 얻은 ‘group‑relative reward aggregation’이다. 서버는 현재 정책 π_θg에 따라 후보 답변 ŷ를 생성하고, 선택된 전문가에게 ⟨x, ŷ⟩를 전송한다. 각 클라이언트는 두 가지 평가 경로를 제공한다. (i) Answer‑Based Evaluation(AE)는 질문이 로컬 데이터에 존재할 때 정답 일치 여부를 0/1 이진 스코어로 반환한다. (ii) Model‑Based Evaluation(ME)는 로컬에 정답이 없을 경우 사전 학습된 보상 모델 f_θ⋆k를 이용해 연속형 스코어를 산출한다. 클라이언트는 λ_k∈{0,1} 게이팅 변수로 두 경로 중 하나를 선택하고, 최종 스칼라 보상 r_s^k를 서버에 전송한다.

서버는 수집된 {r_s^k}에 대해 평균 μ_r와 표준편차 σ_r를 계산하고, 각 보상을 R_k = (r_s^k−μ_r)/(σ_r+ε) 형태의 정규화된 그룹‑상대 보상으로 변환한다. 이 보상은 정책 그라디언트 ∇_θg log π_θg(ŷ|x)와 곱해져 SGD 형태로 파라미터를 업데이트한다. 정규화 과정은 클라이언트 간 스케일 차이를 완화하고, 소수의 고득점 클라이언트가 전체 업데이트를 독점하는 현상을 방지한다.

FedGRPO의 설계는 몇 가지 중요한 장점을 제공한다. 첫째, 전송되는 데이터는 질문‑답변 페어와 스칼라 보상뿐이므로 전통적인 파라미터 기반 연합 학습에 비해 통신량이 2~3자리 수 감소한다. 둘째, 클라이언트는 원본 데이터나 모델 파라미터를 전송하지 않으므로, 정밀도 기반 공격이나 차분 공격에 대한 프라이버시 위험이 크게 완화된다. 셋째, 전문가 선정 과정이 질문 수준에서 수행되므로, 이질적인 도메인(예: 의료, 법률, 금융)에서 각 질문에 가장 적합한 클라이언트를 자동으로 매칭할 수 있다. 넷째, 그룹‑상대 보상은 기존 PPO나 DPO와 달리 가치 함수 학습이 필요 없으며, 보상 신호의 분산을 자체적으로 조정해 학습 안정성을 높인다.

실험에서는 다양한 도메인(법률 QA, 의료 진단, 금융 리스크 평가)에서 FedGRPO가 기존 FedPEFT, FedAvg 기반 모델 전이, 그리고 합성 데이터 전송 방식보다 3~~7%p 높은 정확도와 5~~10배 낮은 통신 비용을 기록했다. 특히, 라벨이 없는 질문에 대해 전문가 선정만으로도 충분히 높은 보상 신호를 얻어, 중앙 모델이 점진적으로 도메인 특화 능력을 습득한다는 점이 주목할 만하다. 한계점으로는 보조 데이터의 품질에 따라 전문가 선정 정확도가 좌우되며, 매우 희소한 도메인에서는 신뢰도 그래프가 불안정해질 수 있다는 점이다. 향후 연구에서는 차등 프라이버시와 안전한 멀티‑태스크 확장을 결합해 더욱 견고한 연합 기초 모델 생태계를 구축할 여지가 있다.

프라이버시 보존 연합 기초 모델을 위한 그룹 상대 보상 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기