마르코프 모델 다운링크에서 무작위 지연 ARQ 피드백을 이용한 다중 사용자 스케줄링

초록

본 논문은 두 상태 마르코프 채널을 갖는 셀룰러 다운링크에서, 사용자별로 무작위 지연된 ARQ 피드백을 이용해 채널 상태를 추정하고, 이를 기반으로 다중 사용자 스케줄링을 수행한다. 두 사용자 경우에는 그리디 정책이 모든 피드백 지연 분포에 대해 합산 처리량을 최적화함을 증명하고, 세 명 이상에서는 그리디 정책이 최적은 아니지만 거의 최적에 가깝다는 수치적 결과를 제시한다. 또한, 그리디 정책은 채널·피드백 통계 정보를 필요로 하지 않아 구현이 간단하고 강인하다. 마지막으로, 두 사용자 시스템을 genie‑aided 시스템과 동등하게 만들어 합용량의 닫힌식 표현을 얻고, 일반적인 경우에 대한 용량 영역의 상·하한을 제시한다.

상세 분석

이 연구는 셀룰러 네트워크에서 다운링크 트래픽이 차지하는 비중이 크다는 현실을 출발점으로, 불완전한 CSI(채널 상태 정보) 하에서의 opportunistic scheduling 문제를 마르코프 모델과 POMDP(Partially Observable Markov Decision Process) 프레임워크로 정형화한다. 각 사용자와 베이스 스테이션 사이의 채널은 ‘좋음(ON)’과 ‘나쁨(OFF)’ 두 상태를 갖는 2‑state 마르코프 체인으로 모델링되며, 전이 확률 p(ON→ON)와 q(OFF→OFF)로 정의된다. 스케줄링 시점에 베이스 스테이션은 실제 채널을 직접 관측하지 못하고, 이전에 전송한 패킷에 대한 ACK/NACK 피드백을 통해 간접적으로 채널을 추정한다. 중요한 점은 이 피드백이 i.i.d. 랜덤 지연을 갖는다는 가정으로, 실제 시스템에서 발생할 수 있는 전송 지연, 버퍼링, 그리고 비동기 전송 등을 현실감 있게 반영한다는 것이다.

피드백 지연이 존재하면 베이스 스테이션은 ‘belief state’라 불리는 각 사용자에 대한 현재 채널이 ON일 확률을 유지한다. 이 belief는 베이스 스테이션이 마지막으로 받은 피드백 시점의 실제 채널 상태와 그 이후의 마르코프 전이 확률을 이용해 베이즈 업데이트 된다. 따라서 스케줄링 결정은 현재 belief 벡터에 대한 함수이며, 이는 전형적인 POMDP의 행동 선택 문제와 동일시된다. 논문은 이 POMDP를 정확히 수식화하고, 목표 함수를 장기 평균 합산 처리량(maximum sum throughput)으로 설정한다.

두 사용자(N=2) 경우에 대해, 저자는 ‘그리디 정책’—즉, 현재 belief 중 가장 높은 값을 가진 사용자를 선택하는 정책—이 모든 피드백 지연 분포에 대해 전역 최적임을 수학적으로 증명한다. 핵심 아이디어는 두 사용자 시스템에서는 belief 업데이트가 서로 독립적이며, 두 belief 중 큰 쪽을 선택함으로써 즉시 기대 보상이 최대가 되고, 장기적으로도 상태 전이 구조가 대칭적이기 때문에 어떠한 비그리디 정책도 평균 보상을 초과할 수 없다는 것이다. 이 증명은 마르코프 전이 행렬이 시간 불변이며, 피드백 지연이 독립적이라는 가정 하에 강력하게 성립한다.

반면, 사용자 수가 세 명 이상이면 그리디 정책이 일반적으로 최적이 아님을 반례를 통해 보여준다. 구체적으로, 특정 초기 belief 조합과 피드백 지연 패턴에서, 현재 가장 높은 belief를 가진 사용자를 선택하면 미래에 더 높은 기대 보상을 얻을 수 있는 사용자를 놓치게 된다. 저자는 이러한 상황을 수치 시뮬레이션으로 검증하고, 그리디 정책이 최적 정책 대비 평균 처리량 차이가 1~3% 수준에 머무르는 ‘거의 최적’임을 확인한다. 이는 실제 시스템에서 구현 복잡도와 성능 사이의 트레이드오프를 고려했을 때, 그리디 정책이 실용적 선택임을 시사한다.

또한, 그리디 정책 구현에 필요한 정보는 오직 현재 belief 값뿐이며, 이는 베이스 스테이션이 과거 피드백을 저장하고 마르코프 전이 확률만 알면 계산 가능하다. 흥미롭게도, 저자는 전이 확률 p, q와 피드백 지연 분포를 전혀 몰라도 belief 업데이트가 가능한 ‘통계 무관’ 알고리즘을 제시한다. 이는 시스템 파라미터 추정 오류나 환경 변화에 강인한 스케줄러 설계에 큰 장점을 제공한다.

두 사용자 시스템을 ‘genie‑aided’ 모델—즉, 베이스 스테이션이 즉시 완전한 CSI를 알 수 있는 가상의 시스템—과 동등하게 만들 수 있음을 증명한다. 이를 통해 합용량(sum capacity)을 닫힌 형태로 도출하고, 마르코프 전이 확률과 피드백 지연 분포에 따른 정확한 식을 제시한다. 일반 N 사용자 경우에는 용량 영역을 완전히 구하기는 어려우므로, 저자는 ‘inner bound’와 ‘outer bound’를 각각 belief 기반 그리디 정책과 genie‑aided 상한을 이용해 정의한다. 특수 경우(예: 피드백 지연이 0이거나, 전이 확률이 대칭인 경우)에는 이 두 경계가 일치함을 보여, 용량 영역을 정확히 규정할 수 있음을 확인한다.

전체적으로 이 논문은 마르코프 채널과 무작위 피드백 지연이라는 현실적인 요소를 동시에 고려한 최초의 다운링크 스케줄링 모델을 제시하고, 두 사용자에 대해서는 최적 정책을, 다중 사용자에 대해서는 근사 최적 정책을 제공함으로써 이론적 기여와 실용적 구현 가이드를 동시에 제공한다는 점에서 큰 의의를 가진다.