연계 제약을 갖는 연속 게임을 위한 반분산 온라인 학습 알고리즘

본 논문은 연속적인 전략 공간을 갖는 비협조적 게임에 선형 연계 제약이 추가된 상황을 모델링하고, 이를 해결하기 위한 새로운 반분산 온라인 학습 알고리즘을 제안한다. 먼저, 저자는 게임을 Γ = (N, u, X, C) 로 정의한다. 여기서 N은 플레이어 집합, u_i는 각 플레이어 i의 효용 함수(볼록성 및 연속적인 그라디언트 가정), X_i는 로컬 전략 집합(비어 있지 않은 콤팩트 볼록 집합), C는 선형 부등식 제약 g(x)=Ax−b≤0 로 표현된다. 제약 행렬 A는 각 플레이어 i에 대해 A_i가 로컬 정보만을 포함하도록 블록 구조화되어 있어, 플레이어 i는 자신의 전략이 제약에 어떻게 기여하는지만 알 수 있다. 연계 제약이 존재하면 일반적인 나시 균형(Nash equilibrium) 개념 대신, 일반화 나시 균형(generalized Nash equilibrium, GNE) 혹은 변분 불평등(VI) 해를 고려한다. 저자는 효용 함수의 그라디언트 v(x)= (∇_{x_i} u_i(x))_{i∈N} 를 정의하고, K-강하게 볼록한 정규화 함수 ψ_i를 이용해 미러 맵 Φ_i를 구성한다. Fenchel coupling F_i(p,y)=ψ_i(p)+ψ_i^*(y)−⟨p,y⟩ 은 원시-듀얼 거리 측정에 사용되며, 전체 시스템에 대해 총 Fenchel coupling F_N을 정의한다. 제안된 알고리즘은 Mirror Ascent with Augmented Lagrangian (MAAL) 으로 명명된다. 매 시간 단계 t에서 각 플레이어 i는 현재 듀얼 변수 Y_i^t 를 Φ_i를 통해 실제 전략 X_i^t=Φ_i(Y_i^t) 로 변환하고, 효용 그라디언트 v_i(X^t) 와 중앙 코디네이터가 제공한 라그랑지 승수 λ^t 를 이용해 Y_i를 업데이트한다. 구체적으로 Y_i^{t+1}=Y_i^t+γ_t (v_i(X^t)−A_i^T λ^t) 이며, 여기서 γ_t>0 는 비적응적 스텝 사이즈이다. 중앙 코디네이터는 모든 플레이어의 현재 전략 X^t 를 수집해 라그랑지 승수 λ를 다음과 같이 갱신한다. λ^{t+1}=Π_{ℝ_+^M}

연계 제약을 갖는 연속 게임을 위한 반분산 온라인 학습 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기