비제로 충돌 보상과 이질적 환경을 위한 탈중앙 다중플레이어 밴딧

** 본 논문은 플레이어 간 통신이 불가능하고, 각 플레이어마다 팔의 보상 분포가 다르며, 충돌 시에도 완전 제로가 아닌 보상이 주어지는 완전 탈중앙 다중플레이어 MAB 문제를 다룬다. 시간 horizon T를 사전에 알 수 없는 상황에서, K ≥ M인 경우에도 적용 가능한 새로운 에포크 기반 알고리즘을 제안하고, 기대 레그레스를 \(O(\log^{1+\delta}T)\) (0 < δ < 1) 로 제한한다. **

저자: Akshayaa Magesh, Venugopal V. Veeravalli

** 본 논문은 탈중앙 다중플레이어 다중팔 밴딧(MAB) 문제를 새로운 관점에서 재정의한다. 기존 연구는 주로 (1) 모든 플레이어가 동일한 보상 분포를 갖는 동질적 환경, (2) 충돌 시 보상이 완전히 0이 되는 제로 보상 모델, (3) 플레이어 수 K가 팔 수 M보다 작거나 같다는 가정을 전제로 했다. 그러나 실제 무선 통신, IoT, 분산 광고 시스템 등에서는 (i) 각 사용자마다 채널 품질이 다르게 나타나는 이질적 보상, (ii) 여러 사용자가 동시에 채널을 사용할 경우에도 일정 수준의 전송률이 유지되는 비제로 충돌 보상, (iii) 사용자가 채널보다 많아도 시스템이 동작해야 하는 상황이 빈번히 발생한다. 이러한 현실적 요구를 반영하기 위해, 저자들은 다음과 같은 모델을 설정한다. - 플레이어 집합 \(

비제로 충돌 보상과 이질적 환경을 위한 탈중앙 다중플레이어 밴딧

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기