연속완화 기반 일반화 미니맥스 Q 러닝: 두 플레이어 영점 게임의 빠른 수렴

본 논문은 두 플레이어 영점 마코프 게임에서 연속완화(SOR) 기법을 적용한 일반화 미니맥스 Q‑러닝 알고리즘을 제안한다. 수정된 Q‑벨만 연산자 H_w는 최대 노름에서 수축성을 가지며, w > 1인 경우 기존 알고리즘보다 작은 수축 계수를 확보해 수렴 속도를 높인다. 확률 근사와 ODE 분석을 통해 거의 확실히 수렴함을 증명하고, 실험을 통해 표준 미니맥스 Q‑러닝 대비 빠른 학습을 확인한다.

저자: Raghuram Bharadwaj Diddigi, Ch, ramouli Kamanchi

본 논문은 두 플레이어 영점 마코프 게임(Zero‑Sum Markov Game)의 최적 정책을 모델‑프리 환경에서 학습하기 위한 새로운 강화학습 알고리즘을 제시한다. 기존 연구에서는 미니맥스 Q‑러닝이 Bellman‑type 연산자를 이용해 상태‑행동값 Q를 업데이트하고, 이를 통해 최소‑최대 고정점을 찾아 정책을 도출한다. 그러나 표준 미니맥스 Q‑러닝은 할인 계수 α 에 의해 결정되는 수축 계수 α 만큼만 수렴 속도가 제한된다. 저자들은 연속완화(Successive Over‑Relaxation, SOR) 기법을 두 플레이어 영점 게임에 적용한다. SOR은 선형 시스템의 해를 구할 때 현재 업데이트와 이전 값의 가중 평균을 이용해 수렴 속도를 높이는 전통적인 방법이다. 이를 게임 이론에 맞게 변형하여, 상태값 연산자 T 와 Q‑값 연산자 H 에 각각 완화 파라미터 w 를 도입한다. 먼저, 마코프 게임을 (S, U, V, p, r, α) 로 정의하고, 최소‑최대 가치 함수 J* 가 고정점 방정식 J = T J 을 만족함을 상기한다. 여기서 T 는 각 상태 i 에 대해 (T J)(i) = val

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기