특징 기반 Q 러닝으로 두 플레이어 제로섬 스토캐스틱 게임 해결

본 논문은 두 플레이어가 번갈아가며 행동하는 제로섬 스토캐스틱 게임(2‑TBSG)의 내시 균형(Nash equilibrium)을 근사하기 위한 새로운 알고리즘 프레임워크를 제시한다. 연구의 핵심 가정은 전이 확률 \(P(s'|s,a)\)가 미리 정의된 특징 함수 \(\phi_k(s,a)\)의 선형 결합으로 정확히 표현될 수 있다는 점이다. 이 가정 하에 Q‑함수는 선형 형태 \(Q_w(s,a)=r(s,a)+\gamma\phi(s,a)^\top w\) 로 파라미터화될 수 있으며, 파라미터 벡터 \(w\in\mathbb R^K\)만을 학습하면 가치 함수와 최적 정책을 즉시 복원할 수 있다. ### 1. 기본 알고리즘 (Algorithm 1) - **대표 상태‑행동 집합 \(\mathcal K\)**: 특징 행렬 \(\Phi_{\mathcal K}\)가 비특이적이고, 각 특징 벡터의 \(\ell_1\) 노름이 1 이하인 K개의 (s,a) 쌍을 선택한다. - **샘플링 단계**: 각 \((s,a)\in\mathcal K\)에 대해 전이 분포를 \(T\)번 샘플링하고, 현재 가치 함수 \(V_{w^{(t-1)}}\)를 이용해 \(\frac{1}{T}\sum_{i=1}^T V_{w^{(t-1)}}(s_i^{(t)})\) 를 추정한다. - **파라미터 업데이트**: 추정값을 \(\Phi_{\mathcal K}^{-1}\)와 곱해 새로운 파라미터 \(w^{(t)}\)를 얻는다. - **반복**: 총 \(R=\Theta\!\big(\frac{L^2\log(KR/\delta)}{\epsilon^2(1-\gamma)^6}\big)\) 번 반복한다. 이 알고리즘은 전이 모델이 완전히 특징에 임베딩될 경우, \(\tilde O\!\big(KL^2/(1-\gamma)^7\epsilon^2\big)\) 샘플 복잡도로 \(\epsilon\)-근사 균형을 고확률(1‑\(\delta\))로 찾는다. 샘플 수는 상태·행동 수와 무관하게 특징 차원 K에만 의존한다. ### 2. 가속 알고리즘 (Variance‑Reduced Q‑Learning) #### 2.1 비음수 특징 가정 모든 특징 \(\phi_k(s,a)\ge0\) 로 가정한다. 비음수가 아닌 경우, 추가 1‑차원 특징을 도입해 모든 값이 비음수가 되도록 변환한다. #### 2.2 Max‑Linear 파라미터화 단일 파라미터 대신 \(Z=O\!\big(\frac{1}{1-\gamma}\big)\) 개의 파라미터 집합 \(\{w^{(h)}\}_{h=1}^Z\) 를 도입한다. \

특징 기반 Q 러닝으로 두 플레이어 제로섬 스토캐스틱 게임 해결

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기