인텐트‑액션 변환을 위한 에이전트 AI 기반 자율 네트워크
초록
**
본 논문은 통신망의 고수준 서비스 인텐트를 언어 모델 기반 인터프리터, 베이지안 최적화 기반 옵티마이저, 다목적 강화학습 기반 컨트롤러라는 세 가지 특화 에이전트가 협업하도록 설계한 에이전트 AI 시스템을 제안한다. 인텐트를 구조화된 최적화 템플릿으로 변환하고, 선호도 공간에서 베이지안 탐색으로 목표 간 트레이드오프를 파악한 뒤, 분산형 Envelope Q‑Learning을 이용해 파레토 최적 정책을 실시간으로 생성한다. 5G‑A RAN 시뮬레이션 실험에서 기존 RL 및 휴리스틱 대비 높은 목표 달성률과 빠른 적응성을 보이며, 차세대 6G 네트워크의 자율 운영 기반으로의 가능성을 입증한다.
**
상세 분석
**
이 논문은 “인텐트‑액션 변환”이라는 핵심 문제를 세 단계의 에이전트 체계로 풀어낸다. 첫 번째인 인터프리터 에이전트는 대형 언어 모델(LLM)을 활용해 자연어 인텐트를 파싱하고, ‘Optimization Template Model(OTM)’이라는 구조화된 템플릿으로 변환한다. 여기서 저자는 두 개의 소형 언어 모델(SLM)을 병렬로 운영해 번역과 컨텍스트 추론을 분리함으로써 RAN의 제한된 연산·메모리 환경에 맞추었다. 또한 피드백 루프를 통해 인텐트의 실현 가능성을 지속적으로 검증하고, 제약 위반 시 자동으로 템플릿을 수정한다는 점이 주목할 만하다.
두 번째 옵티마이저 에이전트는 OTM을 기반으로 베이지안 최적화(PAX‑BO)를 수행한다. 기존 베이지안 최적화는 단일 목표에 초점을 맞추지만, 여기서는 ‘선호도 공간(preference space)’을 정의해 다목적 목표(예: 지연, 스루풋, 에너지) 간의 트레이드오프를 정량화한다. 가우시안 프로세스(GP)와 맞춤형 획득 함수(acquisition function)를 이용해 실시간 네트워크 상태에 따라 선호도를 동적으로 조정한다. 이는 기존 정적 가중치 기반 스칼라화 방법과 달리, 서비스 수준 협약(SLA) 변화에 즉각 대응할 수 있게 한다.
세 번째 컨트롤러 에이전트는 다목적 강화학습(MORL) 프레임워크를 채택한다. 특히 ‘분산 Envelope Q‑Learning(D‑EQL)’이라는 새로운 아키텍처를 도입해, 학습자와 액터를 샤드화하고 우선순위 재플레이 버퍼를 통해 고처리량을 확보한다. 선호도 조건부 네트워크를 하나만 학습하면서도 여러 액터가 선호도 심플렉스 전체를 탐색하도록 설계했으며, 벡터 TD 타깃과 코사인 안정성 손실을 결합해 수렴성을 높였다. 또한 ‘히스토리 선호 재라벨링(hindsight preference relabeling)’을 통해 과거 경험을 재활용, 샘플 효율성을 크게 개선한다.
실험에서는 5G‑A 규격을 따르는 고정밀 시뮬레이터에서 링크 어댑테이션(LA) 태스크를 수행한다. 단일 정책으로 다중 서비스 목표를 동시에 만족시키는 능력이 기존 RL 기반 LA보다 12%~18% 향상되었으며, 목표 충족률도 95% 이상을 기록했다. 특히 전통적인 에이전트 워크플로우(인텐트 → 규칙 기반 매핑 → 고정 정책)와 비교했을 때, 제안된 시스템은 인텐트 변화에 대한 적응 시간이 0.8초 내외로 급감했다. 이는 실시간 RRM에 필수적인 서브밀리초 의사결정 요구를 충족한다는 의미다.
전반적으로 이 논문은 (1) 자연어 인텐트를 구조화된 최적화 문제로 변환하는 언어‑기반 파이프라인, (2) 다목적 선호도 탐색을 위한 베이지안 최적화, (3) 대규모 분산 MORL을 결합한 엔드‑투‑엔드 프레임워크를 제시함으로써, 기존 휴리스틱·단일 목표 RL 접근법의 한계를 뛰어넘는다. 또한 6G 표준화 흐름과도 연계해, 인텐트‑드리븐 네트워크 자동화의 실현 가능성을 구체적인 구현 단계까지 제시한다는 점에서 학술·산업 모두에 큰 시사점을 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기