조정된 보상 기반 학습 절차의 수렴 분석과 교통 게임 적용

본 논문은 N인 플레이어 정규형 게임에서 각 플레이어가 자신의 행동 집합과 실현된 보상만을 이용해 혼합 전략을 업데이트하는 ‘조정된 보상 기반 절차(APD)’를 제안한다. 확률 근사 이론의 ODE 방법을 이용해 연속 동역학과 연결시키고, 거의 확실한 수렴과 양의 확률로의 수렴 조건을 제시한다. 특히 Logit 선택 규칙 하에서의 수렴 조건을 명시하고, 이를 교통 네트워크 게임에 적용하여 수렴 사례와 수렴이 실패하는 예시를 제시한다.

저자: Mario Bravo

본 연구는 N인 플레이어가 참여하는 정규형 게임에서, 각 플레이어가 자신의 행동 집합과 해당 단계에서 얻은 실현 보상만을 관찰할 수 있는 매우 제한된 정보 구조를 전제로 한다. 기존의 누적 강화 학습(Cumulative Reinforcement Learning)이나 가상 보상 기반 절차(Exponential Procedure)와는 달리, 저자는 각 행동이 선택된 횟수 θⁿ(s) 를 이용해 평균 보상을 조정하는 ‘조정된 보상 기반 절차(APD)’를 제안한다. 구체적으로, 행동 s가 선택될 때마다 해당 좌표 x_iⁿ(s) 를 x_i^{n+1}(s)=\frac{θ_i^{n}(s)}{θ_i^{n}(s)+1}x_i^{n}(s)+\frac{1}{θ_i^{n}(s)+1}g_i^{n+1} 와 같이 업데이트한다. 여기서 g_i^{n+1}는 플레이어 i가 n+1 단계에서 실제로 얻은 보상이다. 이 식은 행동이 많이 선택될수록 최신 보상의 가중치가 감소한다는 직관을 반영한다. APD는 스텝 사이즈가 행동별로 달라지는 비동질적(stochastic) 업데이트이므로, 전통적인 Robbins‑Monro 형태와 직접 대응되지 않는다. 이를 해결하기 위해 저자는 θⁿ(s)를 경험적 빈도 λ_i^{n}(s)=θ_i^{n}(s)/n 으로 변환하고, 전체 스텝 사이즈를 γ_n=1/(n+1) 로 설정한다. 이렇게 하면 APD는 x_i^{n+1}-x_i^{n}=γ_{n+1}

조정된 보상 기반 학습 절차의 수렴 분석과 교통 게임 적용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기