집합적 마르코프 게임에서 탈중앙화 CCE 학습을 위한 적응형 단계 기반 V‑학습

본 논문은 에이전트들의 보상이 자신의 행동과 전체 행동의 집계량에만 의존하는 집합적 마르코프 게임(AMG)에서, 통신 없이 완전 탈중앙화된 방식으로 Coarse Correlated Equilibrium(CCE)를 근사적으로 학습하는 새로운 알고리즘을 제안한다. 두 시간척도(two‑timescale) 아이디어를 활용해 학습을 단계(stage)별로 구분하고, 집계 신호의 변동성을 이용해 단계 길이를 동적으로 조정한다. 각 단계에서는 Tsallis‑…

저자: Siying Huang, Yifen Mu, Ge Chen

본 논문은 다중 에이전트 시스템에서 에이전트들의 보상이 자신의 행동과 전체 행동의 집계량에만 의존하는 집합적 마르코프 게임(AMG)을 대상으로, 완전 탈중앙화된 환경에서 Coarse Correlated Equilibrium(CCE)를 효율적으로 학습하는 새로운 알고리즘을 제시한다. 서론에서는 MARL의 실용적 제약—통신 비용, 신뢰성 부족—을 강조하고, 일반적인 마르코프 게임에서 CCE를 학습하는 기존 연구들을 소개한다. 그러나 이들 대부분은 환경 구조를 활용하지 못하고, 에이전트 수에 대한 복잡도가 급격히 증가한다는 문제점을 지적한다. 집합적 보상 구조는 실제 시장 경쟁, 전력 수요 응답, 통신 네트워크 자원 할당 등에서 흔히 나타나며, 이를 모델링한 AMG는 상태·행동 공간을 크게 축소할 수 있는 잠재력을 가진다. 본 연구의 주요 질문은 “집합적 구조를 활용해 탈중앙화된 방식으로 CCE를 효율적으로 학습할 수 있는가?”이며, 이를 해결하기 위해 다음과 같은 기여를 한다. 1. **알고리즘 설계**: 두 시간척도(two‑timescale) 아이디어를 기반으로 학습을 단계(stage)별로 구분한다. 각 단계에서는 가치 함수(V‑function)를 낙관적 상한(optimistic upper bound) 형태로 업데이트하고, 정책은 빠른 시간척도에서 Tsallis‑INF 무후회 밴딧 서브루틴을 이용해 매 상태‑시간 쌍마다 무후회 보장을 얻는다. 단계 길이는 집계 신호 d_t의 변동성을 측정해 적응형으로 조정한다. 변동성 측정 방법으로는 계수변동(CV)과 평균절대편차(MAD)를 제시하고, 이를 통해 λ(s)∈

집합적 마르코프 게임에서 탈중앙화 CCE 학습을 위한 적응형 단계 기반 V‑학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기