두 플레이어 최적 실행 게임에서 강화학습이 만든 나쉬 균형 이탈

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Double Deep Q‑Learning(DDQL) 에이전트 두 대가 Almgren‑Chriss 시장 충격 모델 하에서 동일 자산을 동시에 청산하도록 학습시켰을 때, 전통적인 나쉬 균형과는 현저히 다른 초경쟁(파레토 최적) 전략을 스스로 발견한다는 사실을 실증한다. 변동성 수준을 달리한 훈련·테스트 환경에서도 이러한 전략이 견고하게 유지되는지를 검증함으로써, 자율 거래 알고리즘이 의도치 않은 암묵적 담합 형태를 띨 가능성을 조명한다.

상세 분석

본 연구는 먼저 Almgren‑Chriss(2000) 프레임워크를 두 명의 에이전트가 공유하는 시장 충격 게임으로 확장한다. 각 에이전트는 초기 보유량 q₀를 N개의 균등 시간 구간(τ)에 걸쳐 청산해야 하며, 가격 동역학은 영구 충격 p(vₜ/τ)=κ·vₜ/τ와 일시 충격 h(vₜ/τ)=α·vₜ/τ로 선형화한다. 구현 차액(Implementation Shortfall, IS)은 현금 흐름의 부정적 기대값을 최소화하는 형태로 정의되며, 전통적인 최적 실행 문제는 단일 에이전트에 대해 닫힌 형태 해를 갖는다. 그러나 두 에이전트가 동시에 거래하면 서로의 거래량이 가격에 영향을 미치므로, 게임 이론적 접근이 필요해진다. 기존 문헌(

두 플레이어 최적 실행 게임에서 강화학습이 만든 나쉬 균형 이탈

초록

상세 분석

댓글 및 학술 토론

의견 남기기