채널 메모리를 활용한 다운링크 스케줄링 및 공동 추정

초록

본 논문은 마코프 모델링된 다운링크 채널에서 ARQ 피드백을 이용해 채널 상태를 추정하고, 추정된 정보를 기반으로 즉시 전송률을 최적화한 뒤, Whittle 인덱스를 활용한 휴리스틱 스케줄링으로 장기 합산 스루풋을 극대화한다. 불완전 CSI 상황에서도 문제를 Restless Multi‑armed Bandit 형태로 정형화하고, Whittle indexability를 증명해 폐쇄형 인덱스 정책을 도출함으로써 거의 최적에 근접한 성능을 보인다.

상세 요약

이 연구는 다운링크 시스템에서 사용자마다 독립적인 2‑state 마코프 채널(성공/실패)을 가정하고, 스케줄러가 실시간 CSI를 완전하게 알 수 없는 상황을 전제로 한다. 대신, 스케줄러는 매 슬롯마다 선택된 사용자에게서 ACK/NACK 형태의 ARQ 피드백을 받아 채널 상태에 대한 베이즈 추정을 수행한다. 여기서 핵심은 마코프 채널이 갖는 시간적 상관성, 즉 ‘채널 메모리’를 활용해 현재 슬롯의 추정 정확도를 높이는 것이다. 논문은 스케줄링을 두 단계로 분리한다. 첫 번째 단계에서는 현재 belief state(채널이 ON 상태일 확률)를 기반으로 전송률을 조정하여, 선택된 사용자의 기대 즉시 전송률을 최대화한다. 이는 각 사용자의 belief state와 전송률 함수 사이의 최적화 문제로, 단일 사용자에 대해 닫힌 형태의 해를 얻을 수 있다. 두 번째 단계에서는 이러한 즉시 기대 전송률을 보상으로 삼아, 장기적인 합산 스루풋을 최대화하는 사용자 선택 정책을 설계한다. 이 문제는 부분관측 마코프 결정 과정(POMDP)으로서 ‘탐색‑활용’ 딜레마를 내포한다. 기존 방법은 전체 상태공간을 탐색해야 하므로 계산량이 폭발한다. 따라서 저자들은 이를 Restless Multi‑armed Bandit(RMB) 프레임워크에 매핑하고, Whittle indexability를 검증한다. Whittle indexability는 각 팔(사용자)의 상태에 대해 ‘패시브’(스케줄링하지 않음)와 ‘액티브’(스케줄링) 행동 사이의 임계 보상값이 존재함을 의미한다. 논문은 belief state가 단조적으로 변한다는 특성을 이용해, 각 사용자의 인덱스를 명시적으로 유도하고, 이 인덱스가 비감소함을 증명함으로써 Whittle indexability를 확보한다. 도출된 인덱스는 현재 belief와 즉시 전송률을 결합한 형태이며, 계산이 매우 간단해 실시간 구현이 가능하다. 실험에서는 최적 정책(동적 프로그래밍 기반)과 비교했을 때, Whittle 인덱스 정책이 12% 이내의 성능 차이만을 보이며, 특히 채널 메모리가 강할수록 그 격차가 더욱 감소한다. 또한, 완전 CSI를 가정한 전통적 ‘채널 상태 기반 스케줄링’에 비해 1020% 정도의 스루풋 향상을 기록한다. 이러한 결과는 불완전 CSI 환경에서도 채널 메모리를 적극 활용하면 큰 이득을 얻을 수 있음을 실증한다.

초록

상세 요약

📜 논문 원문 (영문)