연계 제약을 갖는 연속 게임을 위한 반분산 온라인 학습 알고리즘

본 논문은 선형 연계 제약을 포함하는 볼록 연속 게임에서, 각 플레이어가 자신의 로컬 정보와 중앙 코디네이터가 방송하는 가격 벡터만을 이용해 무후회(mirror ascent) 업데이트를 수행하도록 설계된 반분산 알고리즘(MAAL)을 제안한다. 증강 라그랑지안 방식을 도입해 제약 위반을 점진적으로 감소시키며, 비적응적 단계 크기와 증강 파라미터에 대한 충분조건을 만족하면 알고리즘이 변분 안정성(variational stability)을 갖는 일반…

저자: Ezra Tampubolon, Holger Boche

본 논문은 연속적인 전략 공간을 갖는 비협조적 게임에 선형 연계 제약이 추가된 상황을 모델링하고, 이를 해결하기 위한 새로운 반분산 온라인 학습 알고리즘을 제안한다. 먼저, 저자는 게임을 Γ = (N, u, X, C) 로 정의한다. 여기서 N은 플레이어 집합, u_i는 각 플레이어 i의 효용 함수(볼록성 및 연속적인 그라디언트 가정), X_i는 로컬 전략 집합(비어 있지 않은 콤팩트 볼록 집합), C는 선형 부등식 제약 g(x)=Ax−b≤0 로 표현된다. 제약 행렬 A는 각 플레이어 i에 대해 A_i가 로컬 정보만을 포함하도록 블록 구조화되어 있어, 플레이어 i는 자신의 전략이 제약에 어떻게 기여하는지만 알 수 있다. 연계 제약이 존재하면 일반적인 나시 균형(Nash equilibrium) 개념 대신, 일반화 나시 균형(generalized Nash equilibrium, GNE) 혹은 변분 불평등(VI) 해를 고려한다. 저자는 효용 함수의 그라디언트 v(x)= (∇_{x_i} u_i(x))_{i∈N} 를 정의하고, K-강하게 볼록한 정규화 함수 ψ_i를 이용해 미러 맵 Φ_i를 구성한다. Fenchel coupling F_i(p,y)=ψ_i(p)+ψ_i^*(y)−⟨p,y⟩ 은 원시-듀얼 거리 측정에 사용되며, 전체 시스템에 대해 총 Fenchel coupling F_N을 정의한다. 제안된 알고리즘은 Mirror Ascent with Augmented Lagrangian (MAAL) 으로 명명된다. 매 시간 단계 t에서 각 플레이어 i는 현재 듀얼 변수 Y_i^t 를 Φ_i를 통해 실제 전략 X_i^t=Φ_i(Y_i^t) 로 변환하고, 효용 그라디언트 v_i(X^t) 와 중앙 코디네이터가 제공한 라그랑지 승수 λ^t 를 이용해 Y_i를 업데이트한다. 구체적으로 Y_i^{t+1}=Y_i^t+γ_t (v_i(X^t)−A_i^T λ^t) 이며, 여기서 γ_t>0 는 비적응적 스텝 사이즈이다. 중앙 코디네이터는 모든 플레이어의 현재 전략 X^t 를 수집해 라그랑지 승수 λ를 다음과 같이 갱신한다. λ^{t+1}=Π_{ℝ_+^M}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기