On Last-Iterate Convergence Beyond Zero-Sum Games

Reading time: 4 minute
...
Featured Image

📝 Abstract

Most existing results about \emph{last-iterate convergence} of learning dynamics are limited to two-player zero-sum games, and only apply under rigid assumptions about what dynamics the players follow. In this paper we provide new results and techniques that apply to broader families of games and learning dynamics. First, we use a regret-based analysis to show that in a class of games that includes constant-sum polymatrix and strategically zero-sum games, dynamics such as \emph{optimistic mirror descent (OMD)} have \emph{bounded second-order path lengths}, a property which holds even when players employ different algorithms and prediction mechanisms. This enables us to obtain $O(1/\sqrt{T})$ rates and optimal $O(1)$ regret bounds. Our analysis also reveals a surprising property: OMD either reaches arbitrarily close to a Nash equilibrium, or it outperforms the \emph{robust price of anarchy} in efficiency. Moreover, for potential games we establish convergence to an $ε $-equilibrium after $O(1/ε^2)$ iterations for mirror descent under a broad class of regularizers, as well as optimal $O(1)$ regret bounds for OMD variants. Our framework also extends to near-potential games, and unifies known analyses for distributed learning in Fisher’s market model. Finally, we analyze the convergence, efficiency, and robustness of \emph{optimistic gradient descent (OGD)} in general-sum continuous games.

💡 Analysis

Most existing results about \emph{last-iterate convergence} of learning dynamics are limited to two-player zero-sum games, and only apply under rigid assumptions about what dynamics the players follow. In this paper we provide new results and techniques that apply to broader families of games and learning dynamics. First, we use a regret-based analysis to show that in a class of games that includes constant-sum polymatrix and strategically zero-sum games, dynamics such as \emph{optimistic mirror descent (OMD)} have \emph{bounded second-order path lengths}, a property which holds even when players employ different algorithms and prediction mechanisms. This enables us to obtain $O(1/\sqrt{T})$ rates and optimal $O(1)$ regret bounds. Our analysis also reveals a surprising property: OMD either reaches arbitrarily close to a Nash equilibrium, or it outperforms the \emph{robust price of anarchy} in efficiency. Moreover, for potential games we establish convergence to an $ε $-equilibrium after $O(1/ε^2)$ iterations for mirror descent under a broad class of regularizers, as well as optimal $O(1)$ regret bounds for OMD variants. Our framework also extends to near-potential games, and unifies known analyses for distributed learning in Fisher’s market model. Finally, we analyze the convergence, efficiency, and robustness of \emph{optimistic gradient descent (OGD)} in general-sum continuous games.

📄 Content

대부분의 기존 연구들은 마지막 반복값 수렴(last‑iterate convergence) 에 관한 결과를 두 명의 플레이어가 참여하는 제로섬 게임에만 국한시키고, 플레이어들이 따르는 학습 역학에 대해 매우 엄격한 가정만을 전제로 하고 있습니다. 본 논문에서는 이러한 제한을 넘어 보다 넓은 범위의 게임 클래스와 학습 역학에 적용될 수 있는 새로운 결과와 기법을 제시합니다.

첫 번째로, 우리는 후회(regret) 기반 분석을 이용하여 상수합(polymatrix) 게임전략적 제로섬(strategically zero‑sum) 게임을 포함하는 게임 군에서 낙관적 거울 하강법(optimistic mirror descent, OMD) 과 같은 역학이 제2차 경로 길이(second‑order path length)가 유계(bounded) 임을 증명합니다. 이 성질은 각 플레이어가 서로 다른 알고리즘이나 예측 메커니즘을 사용하더라도 유지됩니다. 제2차 경로 길이가 유계라는 사실은 곧 ** $O(1/\sqrt{T})$ 수렴 속도**와 최적의 $O(1)$ 후회(regret) 경계를 얻을 수 있게 해 줍니다.

우리의 분석을 통해 놀라운 추가적 특성도 드러납니다. 바로 OMD는 아무리 작은 거리라도 내쉬 균형(Nash equilibrium) 에 arbitrarily close하게 수렴하거나, 혹은 강건한 비효율성 가격(robust price of anarchy) 보다 더 나은 효율성을 달성한다는 점입니다. 즉, OMD는 게임의 효율성 측면에서 최악의 경우에도 기존에 알려진 비효율성 한계보다 우수한 성능을 보입니다.

두 번째로, 잠재 게임(potential games) 에 대해서는 거울 하강법(mirror descent)광범위한 정규화 함수(class of regularizers) 를 사용할 때 ** $ε$‑균형(ε‑equilibrium)** 에 $O(1/ε^{2})$ 회의 반복만에 수렴한다는 것을 입증합니다. 더불어 OMD 변형 버전들에 대해서도 최적의 $O(1)$ 후회 경계를 확보할 수 있음을 보였습니다.

우리의 프레임워크는 근접 잠재 게임(near‑potential games) 로도 자연스럽게 확장되며, 피셔 시장 모델(Fisher’s market model) 에서의 분산 학습(distributed learning) 분석들을 하나의 통일된 이론적 틀 아래에 통합합니다. 이는 기존에 서로 다른 맥락에서 제시되던 여러 결과들을 하나의 공통된 접근법으로 재해석할 수 있게 해 줍니다.

마지막으로, 일반합 연속 게임(general‑sum continuous games) 에서 낙관적 경사 하강법(optimistic gradient descent, OGD)수렴성(convergence), 효율성(efficiency), 그리고 강건성(robustness) 을 체계적으로 분석합니다. OGD가 게임의 구조적 특성에 따라 어떻게 행동하는지, 그리고 어떤 조건 하에서 최적에 가까운 결과를 보장받을 수 있는지를 상세히 규명함으로써, 기존의 제로섬 혹은 상수합 게임에 국한된 연구들을 넘어선 보다 일반적인 게임 이론 및 학습 역학 연구에 중요한 기여를 합니다.

요약하면, 본 논문은

  1. 후회 기반 분석을 통한 제2차 경로 길이 유계성 증명,
  2. $O(1/\sqrt{T})$ 수렴 속도와 $O(1)$ 후회 경계 확보,
  3. OMD가 내쉬 균형에 임의로 가깝게 수렴하거나 강건한 비효율성 가격보다 우수한 효율성을 달성한다는 새로운 발견,
  4. 잠재 게임 및 근접 잠재 게임에서의 빠른 $ε $‑균형 수렴,
  5. 피셔 시장 모델을 포함한 다양한 분산 학습 상황에 대한 통합 이론,
  6. 일반합 연속 게임에서 OGD의 수렴·효율·강건성 분석

이라는 여섯 가지 주요 기여를 제시합니다. 이러한 결과들은 학습 역학이 적용될 수 있는 게임의 범위를 크게 확대하고, 다양한 알고리즘이 서로 다른 예측 메커니즘을 사용하더라도 일관된 성능 보장을 제공한다는 점에서 이론적·실용적 의미가 큽니다. 앞으로도 이 프레임워크를 바탕으로 더 복잡한 다중 에이전트 시스템과 비선형 동적 환경에 대한 연구가 진행될 것으로 기대됩니다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut