단일 지수 밴딧: 보상 함수 미지의 일반화 선형 컨텍스트 밴딧
초록
본 논문은 보상 함수가 사전 정의되지 않은 일반화 선형 밴딧 문제를 “단일 지수 밴딧(SIB)”으로 정의하고, 보상 함수가 단조증가인 경우와 일반적인 비단조 경우에 각각 효율적인 알고리즘(STOR, ESTOR, GSTOR)을 제안한다. 특히 ESTOR는 시간 horizon T에 대해 거의 최적에 해당하는 $\tilde O(\sqrt{T})$ 수준의 누적 레그레스를 달성한다. 고차원 희소 설정과 Gaussian 디자인 가정 하에서도 동일한 차원의 의존성을 유지한다. 실험을 통해 제안 알고리즘들의 실용성을 검증한다.
상세 분석
이 논문은 기존 일반화 선형 밴딧(GLB) 연구가 보상 함수(링크 함수)를 사전에 알고 있다는 강한 가정에 의존한다는 점을 비판하고, 실제 서비스 환경에서는 이러한 가정이 거의 불가능함을 강조한다. 이를 극복하기 위해 저자들은 “단일 지수 밴딧(SIB)”이라는 새로운 문제 설정을 도입한다. SIB는 기대 보상이 선형 예측값 $x^\top\theta^*$에 대한 미지의 함수 $f(\cdot)$ 로 표현되는 모델이며, $f$는 연속적으로 미분 가능하고 경우에 따라 단조증가라는 추가 제약을 가질 수 있다. 핵심 난관은 $f$가 알려지지 않았음에도 불구하고 $\theta^*$와 $f$를 동시에 추정해야 한다는 점이다. 기존 GLB 알고리즘은 MLE 혹은 뉴턴 업데이트에 $f$의 명시적 형태를 필요로 하며, 이는 SIB 설정에서 완전히 붕괴한다.
저자들은 이를 해결하기 위해 Stein’s method 기반의 새로운 추정기를 제안한다. Stein’s identity를 이용해 $E
댓글 및 학술 토론
Loading comments...
의견 남기기