다중 팔 밴딧의 차원 독립 최적화
이 논문은 임의의 측정 가능 공간을 팔 집합으로 하는 확률적 밴딧 문제를 다루며, 평균 보상 함수가 알려진 이질성 함수에 대해 국소적으로 Lipschitz 조건을 만족한다는 가정 하에 HOO(Hierarchical Optimistic Optimization) 알고리즘을 제안한다. HOO는 기존 방법보다 개선된 regret 상한을 제공하고, 특히 하이퍼큐브 공간에서 차원의 영향을 받지 않는 √n 수준의 기대 regret을 달성한다. 또한, 이중화…
저자: Sebastien Bubeck (INRIA Futurs), Remi Munos (INRIA Lille - Nord Europe), Gilles Stoltz (DMA
본 논문은 “X‑Armed Bandits”라는 이름으로, 전통적인 K‑armed 밴딧 모델을 일반화한 새로운 문제 설정을 제시한다. 여기서 팔 집합 𝓧 은 유한 집합이 아니라 임의의 측정 가능 공간이며, 평균 보상 함수 f 는 사전에 알려진 이질성 함수 d 에 대해 국소 Lipschitz 연속성을 만족한다는 가정을 둔다. 이러한 가정은 실제 응용에서 거리 기반 매트릭스가 아닌, 더 복잡한 유사도 혹은 비용 함수가 주어지는 경우를 포괄한다.
**문제 정의와 가정**
- 팔 집합 𝓧 은 일반적인 위상 공간으로, 각 팔 x∈𝓧 에 대해 보상 r_t 은 독립적인 확률 변수이며, 기대값 f(x) = E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기