연합 학습용 통합 데이터 전처리 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FedPS는 연합 학습 환경에서 원본 데이터를 공유하지 않고도 통계 요약을 이용해 스케일링·인코딩·이산화·결측값 보정 등 전처리 작업을 일관되게 수행하도록 설계된 프레임워크이다. 데이터 스케치와 연합 베이지안 회귀 등을 활용해 통신 효율성을 유지하면서 전역 통계와 모델 파라미터를 집계·배포한다. 실험 결과, FedPS 기반 전처리는 로컬 전처리 및 원시 데이터 대비 모델 정확도와 수렴 속도에서 현저히 우수함을 보인다.

상세 분석

FedPS는 연합 학습(Federated Learning)에서 가장 기본적이면서도 간과되기 쉬운 전처리 단계에 대한 체계적인 해결책을 제시한다. 기존 연구는 주로 모델 학습 알고리즘(FedAvg, FedProx 등)에 초점을 맞추었으며, 데이터 전처리를 전제조건으로 가정한다. 그러나 실제 연합 환경에서는 데이터 스키마가 서로 다르고, 결측값, 스케일 차이, 범주형 변수 인코딩 등 다양한 전처리 요구가 존재한다. FedPS는 이러한 문제를 “통계 집계 → 파라미터 파생 → 파라미터 전파 → 로컬 적용”이라는 5단계 파이프라인으로 구조화한다. 핵심은 각 클라이언트가 로컬 데이터를 직접 노출하지 않고, 평균·분산·최소·최대·퀀타일·빈도 아이템 등 충분통계(sufficient statistics)를 데이터 스케치(KLL, REQ, Frequent Items Sketch) 기법으로 압축해 서버에 전송한다는 점이다. 서버는 압축된 스케치를 병합해 전역 통계를 복원하고, 이를 기반으로 전처리 파라미터(예: 표준화 평균·표준편차, Min‑Max 구간, 퀀타일 경계, 클러스터 중심)를 계산한다. 파라미터는 최소한의 통신량으로 클라이언트에 전파되며, 각 클라이언트는 로컬 데이터에 동일한 변환을 적용함으로써 전역 일관성을 확보한다.

특히 FedPS는 복잡한 전처리인 결측값 보정에 베이지안 선형 회귀(Bayesian Linear Regression)를 연합 형태로 구현한다. BLR은 사전분포와 사후분포를 이용해 불확실성을 모델링하고, α·β 하이퍼파라미터를 EM‑유사 방식으로 업데이트한다. 연합 환경에서는 XᵀX·와 XᵀY· 같은 2차 통계량을 클라이언트가 로컬에서 계산해 서버에 전달하고, 서버는 이를 집계해 전역 회귀 파라미터를 도출한다. 이를 기반으로 KNNImputer와 IterativeImputer 같은 고급 보간기법을 수평·수직 연합 모두에 적용할 수 있다.

통신 효율성 측면에서 FedPS는 기존 전통적인 전처리(예: 전체 데이터 전송 후 중앙 처리)와 비교해 O(1) 라운드의 통계 전송만으로 충분한 정보를 제공한다. 퀀타일 스케치와 빈도 아이템 스케치는 로그‑선형 메모리·통신 복잡도를 가지며, 정확도는 이론적 오차 보장을 갖는다. 실험에서는 다양한 이질적 데이터셋(비동질적 레이블 분포, 서로 다른 스케일)에서 로컬 전처리와 원시 데이터 대비 5~12%p의 정확도 향상을 기록했으며, 통신량은 10배 이하로 감소했다.

전반적으로 FedPS는 연합 학습 파이프라인에 전처리 단계까지 자연스럽게 통합함으로써, 데이터 프라이버시를 유지하면서도 전처리 일관성을 보장하고, 모델 성능과 학습 효율성을 동시에 끌어올리는 실용적 프레임워크라 할 수 있다.

연합 학습용 통합 데이터 전처리 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기