품질‑다양성 알고리즘을 활용한 시장 상황 맞춤형 최적 실행 스케줄링
초록
본 논문은 거래 실행 문제에 MAP‑Elites라는 품질‑다양성(QD) 알고리즘을 적용해 유동성·변동성에 따라 특화된 실행 정책 포트폴리오를 생성한다. 고전적 Almgren‑Chriss 모델과는 달리, 1분 바 데이터에 기반한 전이성 시장 충격 모델을 캘리브레이션하고, PPO 기반 MLP·CNN 정책을 베이스라인으로 사용해 VWAP 대비 2.13 bps의 도착 슬리피지를 달성한다. MAP‑Elites는 특정 시장 레짐에서 8‑10 % 성능 향상을 보였으며, 향후 앙상블 전략과 연산 비용 최적화가 필요함을 제시한다.
상세 분석
이 연구는 최적 실행(Optimal Execution) 문제를 강화학습(RL)과 품질‑다양성(QD) 접근법을 결합해 새로운 해결책을 제시한다. 먼저 저자들은 1분 바(minute‑bar) 데이터를 이용해 400여 종목의 전이성 시장 충격(transient impact) 모델을 구축한다. 충격은 지수 감쇠 커널 G(ℓ)=G₀e^{‑ℓ/τ}와 제곱근 규모의 즉시 충격 함수 f(q,V)=γ(q/V)^β(β≈0.5)로 표현되며, 캘리브레이션 결과 R²>0.02(아웃‑오브‑샘플) 를 달성한다. 이러한 모델은 실제 시장에서 주문이 가격에 미치는 영향을 시간에 따라 점진적으로 감소시키는 현실적인 메커니즘을 제공한다.
시뮬레이션 환경은 Gymnasium 프레임워크 위에 구현되었으며, 주문 스케줄링에 초점을 맞춘다. 에이전트는 현재 잔여량, 남은 시간, 실시간 변동성·유동성 지표 등을 상태로 관찰하고, 각 시점에 거래량 비율 혹은 절대 거래량을 행동으로 선택한다. 보상은 구현 단기실현(Implementation Shortfall)과 VWAP 대비 슬리피지를 결합한 형태로 설계돼, 실행 비용 최소화를 직접적으로 학습 목표에 반영한다.
베이스라인으로는 Proximal Policy Optimization(PPO) 알고리즘을 두 가지 네트워크 구조(MLP와 CNN)로 구현한다. 특히 CNN은 시계열 특성을 추출해 변동성·거래량 패턴을 효과적으로 포착한다. 실험 결과, CNN‑PPO는 4,900건(총 21 B USD) 테스트 주문에서 평균 도착 슬리피지가 2.13 bps로, 전통적인 VWAP(5.23 bps) 대비 59 % 개선을 보였다. 이는 캘리브레이션된 충격 모델이 RL 정책 학습에 충분히 신뢰할 수 있음을 입증한다.
품질‑다양성 측면에서 저자들은 MAP‑Elites를 적용해 ‘유동성‑변동성’ 2차원 행동 디스크립터 공간을 정의한다. 각 셀(cell)은 해당 레짐에 최적화된 정책을 보관하며, 셀별 성능은 베이스 PPO 대비 8‑10 % 향상을 기록한다. 그러나 일부 셀에서는 성능 저하가 관찰돼, 레짐 분류 정확도와 학습 데이터 밀도에 한계가 있음을 드러낸다. 또한, 각 셀마다 별도의 진화 과정을 수행해야 하므로 계산 비용이 크게 증가한다는 실용적 제약도 제시한다.
결론적으로, 전이성 충격 모델과 고충실도 시뮬레이터를 기반으로 한 RL 정책은 기존 베이스라인을 크게 능가한다. MAP‑Elites는 레짐‑전문가 정책을 자동으로 탐색·보관함으로써, 단일 정책이 놓치는 특수 시장 상황을 보완할 가능성을 보여준다. 다만, 셀당 충분한 샘플 확보와 연산 효율성 개선이 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기