5G 네트워크에서 이동성·관측 불확실성을 고려한 QoS‑중심 로드밸런싱을 위한 PPO 기반 딥 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 5G 라디오 액세스 네트워크에서 사용자 이동성과 측정 노이즈를 고려해 셀 개별 오프셋(CIO)을 동적으로 조정하는 PPO 기반 딥 강화학습 프레임워크를 제안한다. 다중 KPI(스루풋, 지연, 지터, 패킷 손실, 공정성, 핸드오버 횟수)를 포함한 복합 보상을 설계하고, 순수 파이썬 시뮬레이터에서 500여 에피소드 학습 후 기존 A3, ReBuHa, CDQL 대비 전반적인 QoS 향상을 입증한다.

상세 분석

이 연구는 5G 초밀집 RAN에서 로드밸런싱 문제를 MDP로 정형화하고, 정책‑그라디언트 계열 중 실시간 적용성이 높은 Proximal Policy Optimization(PPO)을 선택한 점이 핵심이다. PPO는 클리핑된 목표함수와 어드밴티지 추정으로 정책 업데이트의 변동성을 억제하면서도 샘플 효율성을 유지한다. 논문에서는 액터‑크리틱 네트워크를 사용해 상태‑액션 값을 동시에 학습하고, 엔트로피 정규화를 통해 탐색을 지속시킨다.

상태 정의는 셀‑레벨(로드, PRB 사용률, 평균 RSRP/RSRQ)와 UE‑레벨(지연, 패킷 손실, CQI, 최근 핸드오버 횟수) 정보를 집계한 벡터이며, 관측 노이즈를 인위적으로 추가해 현실적인 불확실성을 반영한다. 행동은 각 셀의 CIO 값을 -Δ~+Δ 범위 내에서 조정하는 연속형 벡터로, 이는 기존 A3와 같은 이산형 임계값 조정보다 미세한 제어가 가능하도록 설계되었다.

보상 설계는 6개의 KPI를 정규화하고 가중치를 부여한 가중합 형태이며, 스루풋 증대와 지연·지터·패킷 손실 감소, 공정성 향상, 핸드오버 횟수 최소화를 동시에 달성하도록 설계되었다. 특히 Jain’s Fairness Index를 포함시켜 셀 간 부하 균형을 직접적인 학습 목표에 반영한 점이 주목할 만하다.

시뮬레이션 환경은 순수 파이썬으로 구현된 경량 프레임워크이며, Gauss‑Markov 모델을 이용해 UE의 속도와 방향에 시간적 상관성을 부여한다. 이는 급격한 이동보다 현실적인 관성 효과를 재현해 핸드오버 빈도와 경계 효과를 보다 정확히 평가한다. 학습은 500+ 에피소드, 각 에피소드는 수천 단계로 구성되어 정책이 다양한 트래픽·밀도 상황을 경험하도록 설계되었다.

실험 결과는 PPO 정책이 모든 KPI에서 기존 규칙 기반(A3, ReBuHa) 및 값‑기반 CDQL보다 우수함을 보여준다. 특히 사용자 밀도가 2배 이상 증가한 스트레스 테스트에서도 스루풋 12% 상승, 평균 지연 18% 감소, 핸드오버 횟수 22% 감소를 기록했다. 학습 곡선은 초기 급격한 성능 향후 안정적인 수렴을 보이며, 클리핑 메커니즘 덕분에 정책 발산이 거의 없었다.

한계점으로는 시뮬레이션이 실제 5G 코어와 RAN 인터페이스를 완전 재현하지 못한다는 점, 그리고 정책이 중앙집중식으로 학습되지만 실제 배포 시 분산 실행을 위한 경량화가 필요하다는 점을 들 수 있다. 또한, 보상 가중치 선택이 실험 설정에 크게 의존하므로 현장 적용 시 사전 튜닝이 요구된다. 향후 연구에서는 멀티‑에이전트 협업, 연속적인 온라인 업데이트, 그리고 실제 네트워크 테스트베드와의 연동을 통해 실용성을 검증할 필요가 있다.

5G 네트워크에서 이동성·관측 불확실성을 고려한 QoS‑중심 로드밸런싱을 위한 PPO 기반 딥 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기