공정한 협력을 위한 비례공정성 기반 마르코프 게임
초록
이 논문은 다중 에이전트 사회 딜레마에서 효율성만을 추구하는 전통적 효용합(max‑sum) 접근을 넘어, 로그 보상에 기반한 비례공정성(Proportional Fairness) 목표를 도입한다. 개별 에이전트의 ‘공정 알트루이즘 유틸리티’를 정의하고, 고전적인 Prisoner’s Dilemma, Stag Hunt, Chicken 게임에서 협력이 내쉬 균형이 되도록 하는 알트루이즘 파라미터 α의 임계값을 분석한다. 이후 무한‑히스토리 마르코프 게임으로 확장하여, 비례공정성을 포함한 새로운 가치 함수와 정책 그라디언트 정리를 제시하고, 이를 기반으로 공정 Actor‑Critic 알고리즘을 설계한다. 실험 결과는 제안 방법이 기존 유틸리티‑합 기반 MARL보다 높은 총 보상과 더 균형 잡힌 보상 분배를 동시에 달성함을 보여준다.
상세 분석
본 연구는 두 가지 핵심 아이디어를 결합한다. 첫 번째는 사회 딜레마에서 흔히 사용되는 효용합(utility‑sum) 혹은 유틸리티‑가중합을 대체하는 ‘비례공정성(Proportional Fairness, PF)’ 목표이다. PF는 각 에이전트의 효용 u_i에 대해 Σ_i log u_i 를 최대화함으로써, 효용의 곱을 최적화하는 Nash Welfare와 동등한 성질을 갖는다. 이때 로그 변환은 보상이 양수일 것을 전제로 하며, 보상의 상대적 크기 차이를 축소해 작은 보상을 가진 에이전트에게 더 큰 영향력을 부여한다는 점에서 공정성을 내재한다.
두 번째는 이러한 PF를 기존 알트루이즘 모델에 통합하는 ‘공정 알트루이즘 유틸리티’를 정의하는 것이다. 기존 α‑알트루이즘 모델은 u_i = (1‑α) p_i + α SW(s) 형태로, p_i는 개별 보상, SW는 사회 복지(보통 전체 보상의 합)이다. 저자는 여기서 p_i를 로그 변환한 F_i(p_i) = log p_i 로 치환하고, 최소 보상 m_p를 빼서 스케일을 맞춘 뒤, u_i = (1‑α)·log(p_i‑m_p) + α·SW(s) 로 재정의한다. 이때 α는 보상의 상호 의존성을 조절하는 파라미터이며, α = 0이면 원래 게임, α = 1이면 완전한 PF 기반 사회 복지에 수렴한다.
정리 3.2에서는 2인 대칭 게임에 대해 협력(C,C)이 내쉬 균형이 되기 위한 α의 최소값을 명시적으로 도출한다. Prisoner’s Dilemma에서는 α >
댓글 및 학술 토론
Loading comments...
의견 남기기