비동기 다중에이전트 강화학습을 이용한 5G 라우팅 최적화
초록
본 논문은 서비스별로 독립적인 PPO 에이전트를 배치하고, 이들이 공유 네트워크 상태에 비동기적으로 업데이트를 적용함으로써 5G·O‑RAN 환경에서 라우팅을 실시간으로 최적화한다. 단일 에이전트 대비 학습 시간은 약 30 % 단축되면서 수용률과 지연 지표는 동등하거나 향상된다.
상세 분석
이 연구는 5G·O‑RAN 네트워크가 안고 있는 이질적인 트래픽과 엄격한 QoS 제약을 해결하기 위해 ‘비동기 다중에이전트 강화학습(AMARL)’이라는 프레임워크를 제안한다. 핵심 아이디어는 서비스 종류마다 하나씩 PPO 에이전트를 두어, 각 에이전트가 자신에게 할당된 흐름을 독립적으로 라우팅하고, 그 결과로 발생하는 자원 사용량(링크 대역폭, 컴퓨팅 용량)을 전역 환경 E★에 커밋하는 것이다. 전역 환경은 현재 네트워크 상태를 보존하고, 커밋 단계에서 용량·지연 제약을 검사해 충돌이 있으면 롤백한다. 이와 같이 ‘상태 기반 협조(state‑based coordination)’를 사용하면 에이전트 간 직접적인 메시징이나 동기화 없이도 자원 충돌을 자연스럽게 회피할 수 있다.
비동기 설계는 두 가지 장점을 제공한다. 첫째, 각 에이전트는 자신만의 타이밍(예: 10 ms~100 ms)으로 행동하고 학습할 수 있어 스트래거(느린) 에이전트가 전체 파이프라인을 지연시키는 현상을 방지한다. 둘째, 롤아웃과 업데이트가 분리돼 샘플 처리량이 크게 증가한다. 구현 측면에서는 Ray RLlib의 PPO Trainer를 에이전트로, Ray Actor를 전역 환경으로 활용해 높은 확장성을 확보했다.
실험은 몬트리올 시 실시간 트래픽 데이터를 기반으로 한 24시간 시뮬레이션에서 수행되었다. 비교 대상은 동일한 네트워크와 동일한 보상 구조를 갖는 단일 에이전트 PPO(SARL)이다. 결과는 AMARL이 수용률(Grade of Service)과 평균 종단‑지연에서 SARL과 동등하거나 약간 우수했으며, 학습 벽시계 시간은 약 30 % 감소, 평가 단계에서도 15 % 정도의 속도 향상을 보였다. 특히 트래픽 급변 상황(피크 시간대)에서 AMARL은 서비스별 특화 정책 덕분에 더 안정적인 성능을 유지했다.
한계점으로는 현재 에이전트가 서비스별 고정된 수만큼 존재한다는 점이며, 서비스 종류가 급증하면 에이전트 수가 급격히 늘어날 수 있다. 또한, 전역 환경에 대한 잠금(lock) 메커니즘이 병목이 될 가능성이 있어 대규모 네트워크에서는 보다 효율적인 원자성 보장 방안이 필요하다. 향후 연구에서는 에이전트 수를 동적으로 조정하거나, 메타‑학습을 통해 새로운 서비스에 빠르게 적응하는 방법을 모색하고 있다.
전반적으로 본 논문은 비동기·서비스 특화형 MARL이 5G 라우팅 문제에 실용적인 스케일러빌리티와 견고함을 제공한다는 점을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기