공변량을 고려한 다중 팔 밴딧 문제

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 관측 가능한 공변량에 따라 보상이 변하는 다중 팔 밴딧 문제를 비모수적으로 모델링하고, 이를 해결하기 위해 적응형 구간 분할과 Successive Elimination을 결합한 Adaptively Binned Successive Elimination(abse) 정책을 제안한다. abse는 전역 문제를 지역적인 정적 밴딧 문제로 분해하여 최소화된 누적 후회를 달성하며, 제시된 이론적 분석을 통해 최소극한 최적(regret) 경계를 얻는다.

상세 분석

이 논문은 전통적인 정적 다중 팔 밴딧 모델을 확장하여, 각 팔의 기대 보상이 관측 가능한 연속형 공변량 X∈ℝ^d에 따라 매끄럽게 변한다는 가정을 도입한다. 이러한 설정은 광고 추천, 의료 처방, 온라인 학습 등에서 사용자의 특성이나 환경 변수와 같은 부가 정보가 보상에 직접적인 영향을 미치는 현실적인 상황을 반영한다. 저자들은 기대 보상 함수 μ_a(x) (a는 팔, x는 공변량)가 Hölder 연속성을 만족한다고 가정하고, 마진 파라미터 α∈

공변량을 고려한 다중 팔 밴딧 문제

초록

상세 분석

댓글 및 학술 토론

의견 남기기