분산 데이터셋 기반 클라이언트 서버 다중과제 학습
본 논문은 각 클라이언트가 개별 학습 과제와 전용 데이터셋을 보유한 상황에서, 서버가 실시간으로 데이터를 수집·코딩하여 모든 클라이언트가 공유 데이터베이스를 활용하도록 하는 프라이버시 보존형 클라이언트‑서버 다중과제 학습 프레임워크를 제안한다. 정규화 이론과 커널 방법을 기반으로 혼합 효과 커널을 설계하고, 이를 통해 개별 데이터에 직접 접근하지 않고도 여러 데이터셋의 정보를 융합한다. 시뮬레이션 기반 음악 추천 시스템을 통해 알고리즘의 효율성…
저자: Francesco Dinuzzo, Gianluigi Pillonetto, Giuseppe De Nicolao
본 논문은 현대 데이터 과학에서 점점 더 중요해지고 있는 ‘분산 데이터·프라이버시 보호·다중 과제 학습’이라는 세 가지 요구를 하나의 통합 프레임워크로 해결하고자 한다. 서론에서는 클라우드·엣지 컴퓨팅 환경에서 여러 조직이나 디바이스가 각각 독립적인 데이터셋을 보유하고, 이들 데이터가 서로 보완적인 정보를 담고 있음에도 불구하고 직접적인 데이터 공유는 법적·윤리적 제약으로 어려워지는 현실을 제시한다. 기존 연구는 주로 연합 학습(Federated Learning)이나 차등 프라이버시(Differential Privacy)와 같은 방법으로 프라이버시를 보호하지만, 다중 과제 학습(Multi‑Task Learning, MTL)까지 동시에 고려한 사례는 드물다.
문제 정의에서는 N개의 클라이언트가 각각 (X_i, y_i) 형태의 데이터셋과 고유한 학습 과제 f_i를 가지고 있다고 가정한다. 목표는 각 클라이언트가 자신의 데이터만을 이용해 학습하면서도, 다른 클라이언트들의 데이터가 내포한 유용한 정보를 활용해 f_i의 일반화 성능을 높이는 것이다. 이를 위해 서버는 ‘공통 데이터베이스’를 유지하며, 각 클라이언트는 원시 데이터를 서버에 전송하지 않는다. 대신, 클라이언트는 자신의 지역 커널 K_i와 라그랑주 승수 α_i 형태의 요약 정보를 실시간으로 서버에 전송한다.
핵심 이론은 정규화 기반 MTL 모델을 RKHS 상에서 전개하는 것이다. 전체 목적함수는
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기