분산형 레스트리스 밴딧: 다중 플레이어와 미지 동역학

본 논문은 여러 플레이어가 동시에 참여하는 레스트리스(활성·비활성 시 상태가 변하는) 멀티암드 밴딧 문제를 다룬다. 각 팔의 보상 상태는 플레이어가 선택했을 때는 알려지지 않은 마코프 전이 규칙에, 선택되지 않았을 때는 임의의 무작위 과정에 따라 변한다. 플레이어가 같은 팔을 동시에 선택하면 충돌이 발생해 보상이 손실된다. 저자들은 충돌을 피하면서도 각 팔의 동적 모델을 학습할 수 있는 완전 분산 정책인 Decentralized RUCB를 설계…

저자: Haoyang Liu, Keqin Liu, Qing Zhao

본 논문은 다중 플레이어가 존재하는 레스트리스 멀티암드 밴딧(Restless Multi‑Armed Bandit, RMAB) 문제를 다루며, 각 팔의 보상 상태가 플레이어가 선택했을 때는 알려지지 않은 마코프 전이 규칙에 따라 변하고, 선택되지 않았을 때는 임의의 무작위 과정에 따라 변한다는 두 가지 레스트리스 모델을 제시한다. 첫 번째는 외생 레스트리스 모델로, 시스템 자체는 ‘레스트’ 상태이지만 다른 플레이어의 행동으로 인해 개별 플레이어에게는 팔이 레스트리스하게 보인다. 두 번째는 내생 레스트리스 모델로, 팔이 비활성일 때도 자체적으로 상태가 변한다. 이러한 설정은 통신 네트워크에서 채널 할당, 금융 투자에서 자산 선택, 제조 현장에서 기계 가동 등 다양한 실제 시스템에 적용 가능하다. 문제 정의는 N개의 독립적인 팔과 M(

분산형 레스트리스 밴딧: 다중 플레이어와 미지 동역학

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기