특징 기반 Q 러닝으로 두 플레이어 제로섬 스토캐스틱 게임 해결
이 논문은 상태‑행동 특징을 이용해 전이 모델을 임베딩하고, 두 플레이어 제로섬 스토캐스틱 게임(2‑TBSG)의 내시 균형을 근사하는 두 단계의 Q‑러닝 알고리즘을 제안한다. 기본 알고리즘은 특징 수 K에 비례하는 샘플 복잡도를 보이며, 변분 감소와 단조성 보존, 양측 전략 근사를 결합한 가속 알고리즘은 \(\tilde O\!\left(K/(\epsilon^{2}(1-\gamma)^{4})\right)\) 샘플로 \(\epsilon\)-최적 전…
저자: Zeyu Jia, Lin F. Yang, Mengdi Wang
본 논문은 두 플레이어가 번갈아가며 행동하는 제로섬 스토캐스틱 게임(2‑TBSG)의 내시 균형(Nash equilibrium)을 근사하기 위한 새로운 알고리즘 프레임워크를 제시한다. 연구의 핵심 가정은 전이 확률 \(P(s'|s,a)\)가 미리 정의된 특징 함수 \(\phi_k(s,a)\)의 선형 결합으로 정확히 표현될 수 있다는 점이다. 이 가정 하에 Q‑함수는 선형 형태 \(Q_w(s,a)=r(s,a)+\gamma\phi(s,a)^\top w\) 로 파라미터화될 수 있으며, 파라미터 벡터 \(w\in\mathbb R^K\)만을 학습하면 가치 함수와 최적 정책을 즉시 복원할 수 있다.
### 1. 기본 알고리즘 (Algorithm 1)
- **대표 상태‑행동 집합 \(\mathcal K\)**: 특징 행렬 \(\Phi_{\mathcal K}\)가 비특이적이고, 각 특징 벡터의 \(\ell_1\) 노름이 1 이하인 K개의 (s,a) 쌍을 선택한다.
- **샘플링 단계**: 각 \((s,a)\in\mathcal K\)에 대해 전이 분포를 \(T\)번 샘플링하고, 현재 가치 함수 \(V_{w^{(t-1)}}\)를 이용해 \(\frac{1}{T}\sum_{i=1}^T V_{w^{(t-1)}}(s_i^{(t)})\) 를 추정한다.
- **파라미터 업데이트**: 추정값을 \(\Phi_{\mathcal K}^{-1}\)와 곱해 새로운 파라미터 \(w^{(t)}\)를 얻는다.
- **반복**: 총 \(R=\Theta\!\big(\frac{L^2\log(KR/\delta)}{\epsilon^2(1-\gamma)^6}\big)\) 번 반복한다.
이 알고리즘은 전이 모델이 완전히 특징에 임베딩될 경우, \(\tilde O\!\big(KL^2/(1-\gamma)^7\epsilon^2\big)\) 샘플 복잡도로 \(\epsilon\)-근사 균형을 고확률(1‑\(\delta\))로 찾는다. 샘플 수는 상태·행동 수와 무관하게 특징 차원 K에만 의존한다.
### 2. 가속 알고리즘 (Variance‑Reduced Q‑Learning)
#### 2.1 비음수 특징 가정
모든 특징 \(\phi_k(s,a)\ge0\) 로 가정한다. 비음수가 아닌 경우, 추가 1‑차원 특징을 도입해 모든 값이 비음수가 되도록 변환한다.
#### 2.2 Max‑Linear 파라미터화
단일 파라미터 대신 \(Z=O\!\big(\frac{1}{1-\gamma}\big)\) 개의 파라미터 집합 \(\{w^{(h)}\}_{h=1}^Z\) 를 도입한다.
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기