근실시간 5G O‑RAN 자원 슬라이싱을 위한 딥 강화학습 기반 xSlice 설계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Near‑RT RIC에 탑재되는 xApp ‘xSlice’를 제안한다. xSlice는 MAC‑계층 자원 할당을 온라인으로 최적화하기 위해 Regret 최소화 기반의 목표 함수를 정의하고, Actor‑Critic 구조의 딥 강화학습(DRL)과 그래프 컨볼루션 네트워크(GCN)를 결합한다. 실제 10대 스마트폰 O‑RAN 테스트베드에서 구현·평가한 결과, 기존 최첨단 기법 대비 성능 Regret를 67 % 감소시켰으며, 동적 트래픽·채널 변동에 대한 빠른 적응성을 입증한다.

상세 분석

xSlice는 5G O‑RAN 환경에서 Near‑Real‑Time(RIC) xApp으로 동작하도록 설계되었다. 핵심 아이디어는 QoS 요구를 ‘throughput·latency·reliability’ 세 축으로 가중합한 Regret 기반 목적함수를 정의하고, 이를 최소화하는 정책을 온라인 DRL로 학습하는 것이다. 기존 DRL 기반 슬라이싱 연구는 대부분 시뮬레이션 데이터에 의존하거나 오프라인 학습에 머물렀지만, xSlice는 실제 KPM(Key Performance Metric) 데이터를 실시간으로 수집·처리한다.

DRL 구조는 Actor‑Critic 방식을 채택해 정책(Actor)과 가치(Value) 네트워크를 동시에 학습한다. 정책 네트워크는 PPO(Proximal Policy Optimization) 알고리즘을 사용해 안정적인 업데이트를 보장하고, 가치 네트워크는 TD‑error를 최소화해 빠른 수렴을 돕는다. 특히, MAC‑계층에서 발생하는 다수의 트래픽 세션을 고정된 차원으로 매핑하기 위해 GCN을 도입하였다. 각 세션을 그래프의 노드로 모델링하고, 인접 노드(동일 셀·주파수·시간 슬롯 등)와의 관계를 통해 특징을 집계·전파함으로써, 세션 수가 변동해도 일관된 임베딩을 생성한다. 이 임베딩은 DRL의 입력으로 사용되어, 네트워크 규모에 대한 확장성을 확보한다.

실험은 OpenAirInterface 기반 O‑RAN 테스트베드에서 10대 상용 스마트폰을 UE로 두고 수행되었다. E2 인터페이스를 통해 MAC‑KPM(throughput, latency, BLER 등)을 실시간으로 수집하고, xSlice는 10 ms~1 s 사이의 의사결정 주기로 자원 슬라이스를 재조정한다. 성능 평가는 Regret(목표함수와 실제 성과 차이)와 전통적인 지표(총 스루풋, 평균 지연, 패킷 손실률)로 이루어졌으며, 기존 대표적인 DRL·멀티‑암드 밴딧·RNN 기반 기법 대비 평균 Regret를 67 % 감소시켰다. 또한, 동적 사용자 이동·채널 페이딩 상황에서도 정책이 급격히 변동하지 않고 안정적으로 수렴하는 모습을 보였다.

한계점으로는 현재 실험 규모가 10대 UE에 국한돼 있어 대규모 셀·다중 셀 환경에서의 확장성 검증이 필요하고, GCN의 그래프 구조 설계가 트래픽 세션 간 상관관계를 단순히 인접성에만 의존한다는 점이다. 향후 연구에서는 멀티‑셀 협업 그래프와 메타‑러닝 기법을 결합해 전역 최적화를 도모하고, 정책의 해석성을 높이기 위한 attention 기반 가시화 기법을 도입할 여지가 있다.

근실시간 5G O‑RAN 자원 슬라이싱을 위한 딥 강화학습 기반 xSlice 설계

초록

상세 분석

댓글 및 학술 토론

의견 남기기