게임을 위한 최적 행동 탐색 최대 최소 밴딧 프레임워크
본 논문은 두 명이 교대로 선택하는 제로섬 게임에서 플레이어 A가 최적의 maximin 행동을 찾기 위한 순차적 샘플링 문제를 제시한다. 이를 위해 고정 신뢰도 설정에서 작동하는 두 가지 알고리즘, Maximin‑LUCB와 Maximin‑Racing을 설계하고, 각각에 대한 δ‑PAC 보증과 샘플 복잡도 상한을 증명한다. 또한 두 행동 경우에 대한 하한을 제시하고, 실험을 통해 제안 방법들의 효율성을 검증한다.
저자: Aurelien Garivier (IMT), Emilie Kaufmann (CRIStAL, SEQUEL)
본 논문은 “Maximin Action Identification”이라는 새로운 밴딧 프레임워크를 제안하며, 이는 두 명이 번갈아 선택하는 제로섬 게임에서 플레이어 A가 최적의 maximin 행동을 찾는 순차적 탐색 문제를 다룬다. 게임은 다음과 같이 모델링된다. A는 K개의 첫 번째 단계 행동 i∈{1,…,K} 를 선택하고, 각 i에 대해 B는 K_i개의 반응 j∈{1,…,K_i} 를 선택한다. (i, j) 쌍을 선택하면 승패는 베르누이 확률 µ_{i,j} 로 결정된다. A는 실제 게임을 진행하지 않고, 임의의 (i, j) 쌍을 선택해 롤아웃을 수행함으로써 µ_{i,j} 를 추정한다. 목표는 µ_{i,1}…µ_{i,K_i} 중 최소값을 최대화하는 i* = arg max_i min_j µ_{i,j} 를 ε‑정밀도로, δ‑신뢰도 하에 식별하는 것이다.
논문은 이 문제를 “K + ∑K_i” 개의 베르누이 팔을 가진 밴딧 문제로 변환한다. 기존 베스트‑암 식별(최대 평균)과는 달리, 여기서는 각 그룹 i 내부에서 최소 평균을 찾고, 그 최소값들 중 최대값을 찾는 이중 최적화 구조가 핵심이다. 이를 위해 저자들은 두 가지 고정‑신뢰도(δ‑PAC) 알고리즘을 설계한다.
1. **Maximin‑LUCB (M‑LUCB)**
- 각 팔 P에 대해 시간 t까지의 관측 평균 \hatµ_P(t) 와 샘플 수 N_P(t) 로 신뢰구간
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기