양자 강화학습 기반 그로버 탐색으로 구현한 대규모 MIMO 사용자 스케줄링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 MIMO 시스템에서 사용자 스케줄링의 복잡성을 감소시키기 위해 그로버 검색을 도입한 양자 강화학습(QRL) 프레임워크를 제안한다. 설계된 양자 회로는 정책 업데이트와 의사결정 과정을 양자 게이트로 구현하며, 시뮬레이션 결과 기존 CNN 및 양자 신경망(QNN) 대비 51%·43%의 성능 향상을 보인다.

상세 분석

이 연구는 5G·B5G 시대의 핵심 과제인 massive MIMO 사용자 스케줄링을 양자 컴퓨팅과 강화학습의 결합으로 해결하고자 한다. 기존의 전통적 ML·DL 접근법은 CSI(채널 상태 정보) 획득 비용과 탐색 공간의 지수적 증가로 인해 확장성에 한계가 있었다. 논문은 이러한 문제를 두 가지 관점에서 접근한다. 첫째, 그로버 검색은 무작위 데이터베이스에서 목표 상태를 √N 배속도로 찾을 수 있는 양자 알고리즘으로, 스케줄링 정책이라는 조합 최적화 문제에 직접 적용한다. 여기서 ‘오라클’은 현재 정책의 즉시 합계 전송률을 계산하고, 보상이 임계값 τ를 초과하면 위상 반전을 통해 해당 정책을 마킹한다. 둘째, 강화학습 프레임워크에 양자 회로를 삽입함으로써 정책 업데이트를 양자 게이트(Hadamard, 다중 제어 Z, Diffusion)로 수행한다. 이 구조는 기존의 신경망 레이어와 유사한 계층적 아키텍처를 유지하면서도, 양자 중첩 상태를 이용해 모든 가능한 사용자 조합을 동시에 탐색한다는 장점을 가진다.

구체적인 회로 설계는 T개의 사용자에 대응하는 T개의 큐비트를 초기화하고, Hadamard 게이트로 균일 초월 상태를 만든 뒤, 오라클 레이어에서 보상 기반 위상 반전을 수행한다. 이후 Diffusion 연산을 통해 평균 진폭을 반전시켜 목표 상태의 확률을 증폭한다. 이 과정을 Grover iteration 수 G만큼 반복함으로써 최적 정책에 대한 측정 확률을 점진적으로 높인다.

학습 절차는 전통적인 배치 기반 강화학습과 유사하지만, 파라미터 K(증폭 연산)와 정책 θ를 양자 상태로 유지한다. 에포크가 진행될수록 보상이 임계값을 초과하는 정책이 더 자주 마킹되고, 그 결과 진폭 증폭이 강화되어 최종 측정 시 최적에 가까운 스케줄링 벡터가 도출된다.

실험에서는 안테나 수 A=32, SNR=20dB 환경에서 사용자 수를 2~~10, 안테나 수를 6~~16으로 변동시키며 성능을 평가하였다. QRL은 사용자 수가 증가함에 따라 평균 합계 전송률이 급격히 상승했으며, 특히 10명 사용자에서 20bps/Hz에 근접하는 성능을 보였다. 이는 기존 CNN(≈15.8bps/Hz)과 QNN(≈17.2bps/Hz) 대비 25% 이상 향상된 수치이다. 또한 안테나 수가 늘어날수록 QRL은 공간 자유도를 보다 효율적으로 활용해 14.7bps/Hz까지 도달했으며, 이는 다른 두 모델보다 약 7~9% 높은 값이다.

이러한 결과는 양자 강화학습이 대규모 조합 탐색 문제에서 탐색·활용 균형을 효과적으로 관리하고, CSI 전송 및 계산 복잡도를 크게 낮출 수 있음을 시사한다. 다만 현재 구현은 시뮬레이션 기반이며, 실제 양자 하드웨어의 디코히런스, 게이트 오류, 큐비트 수 제한 등이 실용화에 장애가 될 수 있다. 향후 연구에서는 오류 정정 기법과 하이브리드 양자-클래식 아키텍처를 도입해 실시간 스케줄링에 적용 가능한 프로토타입을 구축하는 것이 필요하다.

양자 강화학습 기반 그로버 탐색으로 구현한 대규모 MIMO 사용자 스케줄링

초록

상세 분석

댓글 및 학술 토론

의견 남기기