보이지 않는 악수 적응형 시장 에이전트 간의 암묵적 담합

보이지 않는 악수 적응형 시장 에이전트 간의 암묵적 담합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시장 메이커와 시장 테이커라는 두 대표 에이전트가 반복 게임에서 개별 부를 최적화할 때, 단순한 그라디언트 기반 학습이 유한 시간 내에 지속적인 가격 과대평가(기초 가치 대비)를 초래하는 암묵적 담합으로 수렴한다는 이론적 모델을 제시한다. 핵심 메커니즘은 전체 재고가 양수일 때 가격 상승이 모든 참여자의 포트폴리오 가치를 동시에 증가시켜, 비협력적 목표 안에도 협력적 요소가 내재된다는 점이다.

상세 분석

이 논문은 금융시장을 두 에이전트(시장 메이커 M, 시장 테이커 T)의 반복 스테이킹 게임으로 단순화하고, 가격 변동을 ‘내생적 충격(거래량에 비례하는 제곱근 가격 충격)’과 ‘외생적 기초 혁신(양의 i.i.d. 변수 ε)’의 곱 형태로 모델링한다. 가격 충격은 α_t·√Q_t (매수)와 β_t·√|Q_t| (매도) 로 정의되며, α_t≥0, β_t≤0 로 제한해 시장 유동성(스프레드·깊이)을 파라미터화한다.

전통적인 마크‑투‑마켓 포트폴리오 가치 W_p(t)=C_p(t)+P_t·I_p(t) 를 각 에이전트의 목표 함수로 설정한다. 저자는 두 가지 목표를 고려한다. (1) 단기(한 단계) 기대 부의 증가를 최대화하는 ‘myopic’ 목표, (2) 무한히 긴 기간 동안의 평균 부를 최적화하는 ‘farsighted’ 목표.

핵심 이론적 기여는 게임을 ‘경쟁적 요소’와 ‘협력적 요소’로 분해한 점이다. 경쟁적 요소는 재고가 0일 때 가격 변동이 개별 부에 부정적 영향을 주어 비협력적 균형(가격이 기초와 일치)으로 수렴한다. 반면, 총 재고 I=I_M+I_T가 양수이면, 가격 상승이 전체 시장 자본화를 늘려 모든 에이전트의 부를 동시에 증가시킨다. 따라서 부의 증가를 위한 기대값에 협력적 항이 등장하고, 이는 그라디언트 상승(또는 블록 좌표 그라디언트) 업데이트가 ‘협력적 영역(가격 과대평가)’으로 끌어당기는 메커니즘이 된다.

학습 역학 분석에서는 (i) 각 에이전트가 파라미터(α_t,β_t, Q_t)를 연속적인 그라디언트 상승으로 업데이트하고, (ii) 업데이트가 무작위 블록 좌표 방식으로 동시 혹은 교대로 수행된다고 가정한다. 저자는 이 동적 시스템이 ‘collusive region’(α,β, Q 조합이 가격을 기초보다 지속적으로 높이는 영역) 안으로 유한 시간 내에 진입하고, 진입 후에는 그 영역을 떠나지 않는 ‘absorbing set’임을 증명한다. 증명은 (a) 기대 부 증가 함수가 collusive region 안에서 양의 그라디언트를 갖고, (b) 경계에서의 업데이트가 내부로 되돌아가는 ‘반사’ 성질을 이용한다.

또한, 장기 목표(무한히 긴 시간 평균 부)에서도 동일한 분해가 가능함을 보이며, ‘협력적 항’이 장기 부의 한계값에 비례함을 확인한다. 따라서 myopic 학습이든 farsighted 학습이든, 총 재고가 양수인 상황에서는 학습이 자연스럽게 가격 과대평가를 유지하는 담합 상태에 수렴한다.

정책적·규제적 함의는 두드러진다. 현재 반독점 법은 명시적 의사소통을 전제로 하지만, AI 기반 알고리즘이 환경에 적응하면서 암묵적으로 가격을 인위적으로 끌어올릴 수 있음을 보여준다. 특히, 시장 메이커가 유동성을 제한(α,β를 크게 설정)하고 테이커가 대규모 주문을 지속하면, 시스템 자체가 ‘협력적’으로 전환돼 가격이 기초와 괴리된다. 이는 규제 당국이 ‘협력적 인센티브’를 식별하고, 재고 구조(예: 순재고 제로 유지)나 유동성 공급 의무 등을 통해 억제할 필요성을 시사한다.

한계점으로는(1) 두 에이전트만을 고려해 다수의 고빈도 트레이더와 복잡한 주문장 구조를 단순화했으며, (2) 가격 충격을 제곱근 형태로 고정했지만 실제 시장에서는 비선형·비대칭 충격이 존재한다. 또한, 학습 알고리즘을 그라디언트 기반으로 가정했는데, 실제 딥러닝 기반 강화학습은 비선형 손실과 탐색‑활용 트레이드오프를 포함한다. 이러한 점은 향후 연구에서 다중 에이전트, 비선형 충격, 그리고 보다 현실적인 학습 메커니즘을 포함해 확장할 여지를 남긴다.


댓글 및 학술 토론

Loading comments...

의견 남기기