위험률을 넘어서: 적대적 다중 팔 밴딧을 위한 새로운 교란 알고리즘

본 논문은 적대적 다중 팔 밴딧 문제에서 교란 기반 FTPL 알고리즘의 성능을 기존의 위험률(bounded hazard rate) 가정 없이도 분석한다. 균등 분포와 가우시안 분포처럼 위험률이 무한히 커지는 경우에도, 일반화 위험률(generalized hazard rate)이라는 새로운 개념을 도입해 서브선형 regret을 보장한다. 특히 가우시안 교란은 O(√NT log N log T)의 거의 최적에 가까운 regret을 달성함을 증명해 기…

저자: Zifan Li, Ambuj Tewari

본 논문은 적대적 다중 팔 밴딧 문제에서 Follow‑the‑Perturbed‑Leader(FTPL) 알고리즘의 성능 분석을 기존의 위험률(bounded hazard rate) 가정 없이 수행한다. 서론에서는 Hannan, Kalai‑Vempala 등 초기 연구들을 언급하며, FTPL과 Follow‑the‑Regularized‑Leader(FTRL)의 연결 고리를 설명한다. 특히, EXP3와 Poly‑INF 같은 기존 알고리즘이 최적에 근접한 regret O(√NT log N)을 달성했지만, 교란 분포에 대한 가정이 제한적이었다는 점을 지적한다. 관련 연구에서는 Abernethy et al. (2015)가 위험률이 유계인 경우에만 다양한 교란(Γ, Gumbel, Fréchet 등)으로 FTPL이 서브선형 regret을 보장한다는 결과를 제시했으며, 그러나 균등·가우시안과 같은 자연스러운 분포는 이 가정을 위반한다는 한계를 제시한다. 저자는 이러한 한계를 극복하고자 두 가지 주요 질문을 제기한다. (1) 위험률이 유계가 아니어도 서브선형 regret을 얻을 수 있는가? (2) 가우시안 교란이 실제로 선형 regret을 초래한다는 기존 추측은 옳은가? 논문의 핵심 기여는 다음과 같다. 1. **위험률 제한의 완화**: 위험률이 무한히 커지는 경우에도 ‘일반화 위험률(generalized hazard rate)’이라는 새로운 지표를 도입한다. 이는 h̃(x)=f(x)/(1−F(x))^α 형태로, α∈

위험률을 넘어서: 적대적 다중 팔 밴딧을 위한 새로운 교란 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기