조합 예측 게임의 최소최대 정책: 피드백 모델별 최적 레지스트 분석
이 논문은 이진 벡터로 표현되는 행동 집합을 가진 온라인 선형 최적화 문제를 다루며, 전체 정보, 세미밴딧, 밴딧 세 가지 피드백 모델에서 L∞ 및 L2 손실 제한 하의 최소최대 레지스트를 정확히 규명한다. 일반적인 Bregman 투영 기반 알고리즘 C L E B를 제시하고, 기존 결과를 간단히 재증명함과 동시에 세미밴딧 게임에 대한 새로운 상한을 제공한다. 또한 모든 모델에 대한 하한을 증명해 대부분의 경우 상하한이 상수 계수만 차이 나는 최…
저자: Jean-Yves Audibert, Sebastien Bubeck, Gabor Lugosi
본 논문은 이진 벡터 형태의 행동 집합 S ⊂ {0,1}^d 을 갖는 온라인 선형 최적화 문제를 다루며, 특히 “조합 예측 게임”이라 명명된 세 가지 피드백 모델—전체 정보(full‑information), 세미밴딧(semi‑bandit), 밴딧(bandit)—에 초점을 맞춘다. 각 라운드 t 에서 예측자는 무작위화된 전략 p_t 에 따라 행동 V_t ∈ S 를 선택하고, 적대자는 손실 벡터 ℓ_t ∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기