비정상 환경에서의 조합 반밴딧: 전환·변동에 강한 새로운 알고리즘

본 논문은 비정상적인 확률 분포 변화를 겪는 조합 반밴딧 문제를 다룬다. 전환 횟수 N과 총 변동량 V를 이용해 두 가지 비정상성 모델(스위칭·다이나믹)을 정의하고, 각각에 대해 근사 오프라인 오라클을 전제로 한 CUCB‑SW 알고리즘을 제시한다. N·V를 사전에 알 경우 ˜O(√{N T})와 ˜O(V^{1/3} T^{2/3})의 거의 최적 분포‑의존형 regret을 달성한다. 파라미터를 모를 경우 CUCB‑BoB를 통해 서브옵티멀하지만 여전히…

저자: Wei Chen, Liwei Wang, Haoyu Zhao

본 논문은 비정상적인 환경 변화가 존재하는 조합 반밴딧(Combinatorial Semi‑Bandit, CMAB) 문제를 체계적으로 연구한다. 기존 CMAB 연구는 대부분 정적(stationary) 가정 하에 진행돼, 시간에 따라 확률 분포가 변하는 현실적인 상황을 반영하지 못했다. 저자들은 두 가지 비정상성 측정 지표, 즉 전환 횟수 N과 총 변동량 V(또는 전체 변동량 \bar V)를 도입해, 각각 스위칭(switching) 케이스와 다이나믹(dynamic) 케이스를 정의한다. N은 연속적인 구간에서 분포가 바뀐 횟수를 세는 정수형 지표이며, V는 평균 벡터 µ_t의 L_∞ 차이의 합으로 연속적인 변화량을 정량화한다. V는 N보다 작거나 같아 두 경우를 동시에 포괄한다. 문제 설정은 m개의 기본 팔을 갖는 환경에서, 매 라운드 t에 행동 S_t∈𝒮를 선택하고, 확률적 트리거링 함수 D_trig(S_t, X(t))에 의해 트리거된 팔 집합 τ_t⊆

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기