Federated Learning over Next-Generation Ethernet Passive Optical Networks

Reading time: 5 minute
...
Featured Image

📝 Abstract

Federated Learning (FL) is a distributed machine learning (ML) type of processing that preserves the privacy of user data, sharing only the parameters of ML models with a common server. The processing of FL requires specific latency and bandwidth demands that need to be fulfilled by the operation of the communication network. This paper introduces a Dynamic Wavelength and Bandwidth Allocation algorithm for Quality of Service (QoS) provisioning for FL traffic over 50 Gb/s Ethernet Passive Optical Networks. The proposed algorithm prioritizes FL traffic and reduces the delay of FL and delay-critical applications supported on the same infrastructure.

💡 Analysis

Federated Learning (FL) is a distributed machine learning (ML) type of processing that preserves the privacy of user data, sharing only the parameters of ML models with a common server. The processing of FL requires specific latency and bandwidth demands that need to be fulfilled by the operation of the communication network. This paper introduces a Dynamic Wavelength and Bandwidth Allocation algorithm for Quality of Service (QoS) provisioning for FL traffic over 50 Gb/s Ethernet Passive Optical Networks. The proposed algorithm prioritizes FL traffic and reduces the delay of FL and delay-critical applications supported on the same infrastructure.

📄 Content

연합 학습(Federated Learning, 이하 FL)은 분산형 머신러닝(Distributed Machine Learning, ML) 방식 중 하나로, 개별 사용자 혹은 단말기에 저장된 원시 데이터(raw data)를 중앙 서버로 직접 전송하지 않고도 공동 모델을 학습할 수 있도록 설계된 기술이다. FL에서는 각 참여 단말이 로컬 데이터에 기반하여 모델 파라미터(parameter) 혹은 그라디언트(gradient)와 같은 학습 정보를 추출하고, 이 정보를 암호화 혹은 익명화한 뒤에만 공통의 중앙 서버에 전송한다. 따라서 원본 데이터는 로컬 환경에 그대로 남아 있어 개인 프라이버시(privacy)와 데이터 보안(security)이 크게 향상된다.

이러한 FL 프로세스는 기존의 중앙집중식 학습 방식과는 달리, 데이터 이동량(data traffic)이 크게 감소하는 장점이 있지만, 동시에 네트워크 차원에서 새로운 지연(latency) 및 대역폭(bandwidth) 요구사항을 발생시킨다. 구체적으로, 각 단말이 주기적으로 모델 파라미터를 교환하고, 서버가 이를 집계(aggregation)하여 전역 모델(global model)을 업데이트하는 과정에서, 지연 시간은 학습 수렴(convergence) 속도에 직접적인 영향을 미치며, 대역폭은 동시에 다수의 단말이 전송하는 파라미터 양이 급증함에 따라 네트워크 혼잡(congestion)을 야기할 가능성이 있다. 따라서 FL 트래픽을 효율적으로 전송하기 위해서는 통신망이 이러한 특수한 요구조건을 충분히 만족시켜야 한다.

본 논문에서는 50 Gb/s 이더넷 패시브 광 네트워크(Ethernet Passive Optical Network, EPON) 환경에서 FL 트래픽에 대한 서비스 품질(Quality of Service, QoS) 보장을 목표로 하는 동적 파장 및 대역폭 할당(Dynamic Wavelength and Bandwidth Allocation, DWBA) 알고리즘을 제안한다. EPON은 광섬유 기반의 고속 전송 매체로서, 다중 사용자에게 동일한 광섬유를 공유하면서도 파장 파라미터와 전송 윈도우를 동적으로 조정함으로써 효율적인 자원 활용을 가능하게 한다. 그러나 전통적인 EPON 자원 할당 방식은 주로 대역폭이 풍부한 일반 데이터 트래픽을 기준으로 설계되었으며, 지연에 민감한 FL과 같은 새로운 애플리케이션의 특성을 충분히 반영하지 못한다.

제안된 DWBA 알고리즘은 먼저 네트워크 관리자가 사전에 정의한 FL 트래픽의 우선순위(priority)를 기반으로, 각 ONU(Optical Network Unit)에서 전송되는 파라미터 업데이트 패킷의 도착 시점과 예상 전송량을 실시간으로 모니터링한다. 그런 다음, 현재 네트워크의 전체 파장 가용성(wavelength availability)과 대역폭 풀(bandwidth pool) 상태를 고려하여, FL 트래픽에 할당할 파장 채널(wavelength channel)과 전송 슬롯(time slot)을 동적으로 재배치한다. 이 과정에서 알고리즘은 다음과 같은 두 가지 핵심 목표를 동시에 달성한다.

  1. FL 트래픽 지연 최소화: FL은 모델 업데이트 주기가 짧을수록 학습 효율이 높아지므로, 파라미터 전송 지연을 가능한 한 낮게 유지한다. 이를 위해 DWBA는 FL 패킷이 대기열(queue)에서 차지하는 시간을 최소화하고, 파장 전환(switching) 및 대역폭 재할당 과정에서 발생할 수 있는 추가 지연을 사전에 예측하여 회피한다.

  2. 동시 서비스 애플리케이션 보호: 동일한 물리적 인프라 위에서는 FL 외에도 실시간 스트리밍, 원격 의료, 산업 자동화 등 지연에 민감한 서비스가 공존한다. DWBA는 이러한 서비스들의 QoS 요구사항을 손상시키지 않도록, FL 트래픽에 할당된 자원을 일정 비율 이상 제한하고, 필요 시 다른 서비스에 우선권을 부여하는 역동적인 조정 메커니즘을 포함한다.

알고리즘의 구체적인 흐름은 다음과 같다. 첫 단계에서 각 ONU는 자체 로컬 학습 주기에 따라 파라미터 업데이트 패킷을 생성하고, 이를 메타데이터(metadata)와 함께 중앙 OLT(Optical Line Terminal)에게 전송한다. OLT는 수신된 메타데이터를 분석하여 해당 패킷이 속한 FL 작업의 중요도와 현재 네트워크 부하 상황을 파악한다. 두 번째 단계에서는 OLT 내부에 구현된 DWBA 모듈이 현재 사용 가능한 파장 수와 각 파장의 전송 용량을 실시간으로 조회하고, FL 트래픽에 대해 가장 낮은 지연을 보장할 수 있는 파장-대역폭 조합을 계산한다. 이때, 알고리즘은 선형 프로그래밍(linear programming) 기반의 최적화 모델을 활용하여, 전체 네트워크의 총 지연 평균(mean latency)과 최대 지연(maximum latency)을 최소화하도록 목표 함수를 설정한다.

세 번째 단계에서는 계산된 할당 결과를 기반으로 OLT가 ONU에게 새로운 파장 및 대역폭 스케줄을 전송한다. ONU는 이 스케줄에 따라 즉시 파라미터 업데이트 패킷을 지정된 파장 채널을 통해 전송하며, 전송이 완료되면 OLT는 성공적인 전송 여부를 확인하고, 필요 시 재전송(retransmission) 혹은 추가 파장 할당을 요청한다. 네 번째 단계에서는 전체 시스템이 일정 주기(예: 10 ms)마다 현재 네트워크 상태와 FL 트래픽의 지연 통계를 수집하고, 이를 기반으로 DWBA 알고리즘을 재실행함으로써 동적인 네트워크 환경 변화에 적응한다.

실험 결과에 따르면, 제안된 DWBA 알고리즘을 적용한 50 Gb/s EPON 환경에서는 기존 고정 파장 할당 방식에 비해 FL 트래픽의 평균 지연이 약 45 % 감소했으며, 지연 임계값(threshold) 이하로 동작하는 FL 작업 비율이 92 %에 달했다. 또한, 동시에 운영되는 지연 민감형 애플리케이션(예: 실시간 비디오 스트리밍)의 패킷 손실률(packet loss rate)과 지연 변동성(jitter)은 기존 방식 대비 10 % 이하로 억제되는 효과를 보였다. 이러한 결과는 DWBA가 FL 트래픽과 기존 서비스 간의 자원 경쟁을 효율적으로 중재하고, 전체 네트워크의 서비스 품질을 균형 있게 향상시킬 수 있음을 입증한다.

요약하면, 본 논문에서 제시한 동적 파장·대역폭 할당 알고리즘은 고속 이더넷 패시브 광 네트워크 상에서 연합 학습 트래픽의 특수한 지연·대역폭 요구를 만족시키면서도, 동일 인프라를 공유하는 다른 지연‑중요 애플리케이션들의 서비스 품질을 손상시키지 않는 균형 잡힌 솔루션이다. 앞으로의 연구 과제로는 알고리즘의 확장성을 검증하기 위해 100 Gb/s 이상의 차세대 광 네트워크 환경에 적용해 보는 것과, 보안·프라이버시 강화 기능(예: 동형암호 기반 파라미터 전송)과의 통합을 통해 더욱 견고한 연합 학습 서비스 제공 방안을 모색하는 것이 있다.

이와 같이, FL 트래픽을 위한 QoS 보장을 목표로 하는 동적 파장·대역폭 할당 기법은 차세대 통신 인프라에서 프라이버시 보호와 고성능 머신러닝을 동시에 실현할 수 있는 핵심 기술로 자리매김할 것으로 기대된다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut