비교환 가능 평균장 마코프 의사결정 과정: 공통 잡음 하에서의 벨만 방정식과 정량적 혼돈 전파

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 라벨(이질성)과 상태가 결합된 확률 측도 공간 (P_{\lambda}(I\times X)) 위에 정의된 벨만 연산자를 이용해, 교환 가능성을 가정하지 않은 평균장 마코프 의사결정 과정(CNEMF‑MDP)을 제시한다. 강형식과 라벨‑상태 약형식을 동등함을 증명하고, 무한 에이전트 한계값 함수를 고유 고정점으로 규정한다. 또한, 유한 (N) 에이전트 시스템에 대해 정량적 혼돈 전파(Propagation of Chaos) 결과를 도출해, 한계값 함수와의 차이를 명시적 수렴 속도로 제시한다. 이를 바탕으로 (\varepsilon)‑최적 정책을 한계 모델에서 추출해 유한 (N) 시스템에 근사 최적 정책으로 전환하는 방법을 제공한다.

상세 분석

이 연구는 기존 평균장 게임·제어 이론에서 핵심 가정이던 교환 가능성(모든 에이전트가 동일한 확률 법칙을 공유) 을 완전히 포기하고, 라벨 (I=

비교환 가능 평균장 마코프 의사결정 과정: 공통 잡음 하에서의 벨만 방정식과 정량적 혼돈 전파

초록

상세 분석

댓글 및 학술 토론

의견 남기기