조합 밴딧에서 다중 스케일 러시 레그레트 최소화
초록
본 논문은 조합 밴딧 문제에서 행동 수 N이 차원에 대해 지수적으로 커지는 상황에서도, 폴리로그(N) 의 교환(regret) 의존성을 갖는 스와프 레그레트를 실현하는 최초의 알고리즘을 제시한다. 마스터‑스케일러너 구조와 Lazy‑CombBCP 구현을 통해 매 라운드마다 O(poly(d,m)) 시간으로 실행 가능하며, 레그레트 상한은 O(T·log(d·log T)/log T) 이다. 또한, 동일 조건에서 이 상한이 최적임을 보이는 하한도 제공한다.
상세 분석
이 논문은 조합 밴딧(Combinatorial Bandit)이라는 고차원 온라인 학습 문제에서, 기존에 외부 레그레트(external regret)만을 효율적으로 최소화할 수 있었던 한계를 넘어 스와프 레그레트(swap regret)를 폴리로그(N) 수준으로 제어하는 새로운 프레임워크를 제시한다. 핵심 아이디어는 ‘마스터 학습자’와 다중 ‘스케일러너(ScaleLearner)’들의 계층적 구조를 도입하는 것이다. 마스터 학습자는 전체 행동 공간 A⊂{0,1}^d 위에서 확률 분포 p̂_t 를 유지하고, 각 스케일러너는 서로 다른 ‘게으름(laziness)’ 스케일 k 에 따라 정책을 일정 구간마다만 업데이트한다. 이러한 다중 스케일러너를 균등 혼합함으로써, 스와프 레그레트를 각 스케일러너가 겪는 외부 레그레트의 합으로 분해할 수 있다(Lemma 3.2).
외부 레그레트를 최소화하기 위해 각 스케일러너는 Lazy‑CombAlg 라는 추상 알고리즘을 사용한다. 구체적인 구현인 Lazy‑CombBCP는 바리센트릭 스패너(barycentric spanner)와 Carathéodory 분해를 활용해, 행동 벡터 M∈A 를 저차원 구조로 압축하고, 정책 업데이트를 O(poly(d,m)) 시간에 수행한다. 밴딧 특성상 관측되는 보상은 부분 정보이므로, 마스터는 무편향 보상 추정량을 구축하고 이를 모든 스케일러너에 전파한다. 여기서 중요한 점은 추정량이 마스터 정책에 대해 무편향이지만, 각 스케일러너의 정책에 대해서는 편향될 수 있다는 점이다. 이 편향을 정밀히 제어하기 위해 논문은 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기