현실감 있는 환경·보상·액션 설계로 강화학습 외환 거래 혁신

현실감 있는 환경·보상·액션 설계로 강화학습 외환 거래 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 외환(Forex) 거래에 적용되는 강화학습(RL) 시스템을 고충실도 실행 엔진, 11가지 구성요소로 분해된 보상 구조, 그리고 마진 제약을 반영한 10가지 이산 액션으로 설계한다. EUR/USD 데이터를 이용한 실험에서 전체 보상 구성이 가장 높은 Sharpe(0.765)와 57.09% 누적 수익을 달성했으며, 액션 공간을 확대하면 수익은 늘어나지만 turnover가 증가하고 Sharpe는 감소한다는 트레이드오프를 확인했다.

상세 분석

이 연구는 외환 시장의 특성을 정확히 반영하기 위해 세 가지 핵심 모듈을 통합한 프레임워크를 제시한다. 첫 번째 모듈인 마찰 인식 실행 엔진은 ‘관측‑주문‑청산’의 시계열을 엄격히 구분하여 look‑ahead 편향을 차단한다. 구체적으로 t 시점의 종가를 관측하고, t+1 시점의 시가에서 주문을 실행하며, t+1 시점 종가에서 포지션을 마크‑투‑마켓한다. 이 과정에서 스프레드, 커미션, 슬리피지, 롤오버 파이낸싱, 마진 초과 시 강제 청산 등 실제 거래에서 발생하는 비용을 모두 모델링한다. 이러한 설계는 시뮬레이션과 실제 시장 간의 ‘sim‑to‑real’ 격차를 크게 줄인다.

두 번째 모듈은 11개의 독립적인 보상 컴포넌트로 구성된 분해 가능한 보상 체계이다. 각 컴포넌트는 사전 정의된 가중치를 갖고 매 스텝마다 로그로 기록되므로, 개별 요소가 학습에 미치는 영향을 정량적으로 평가할 수 있다. 실험 결과, 보상 요소를 순차적으로 추가했을 때 Sharpe와 누적 수익이 비단조(monotonic)하게 개선되지 않으며, 오히려 과도한 페널티가 성능을 저하시킬 수 있음을 확인했다. 이는 금융 트레이딩에서 위험·수익 트레이드오프가 복합적으로 작용함을 보여준다.

세 번째 모듈은 마진 제약을 고려한 10가지 이산 액션이다. 기본적인 매수·매도·청산 외에 포지션 확대(pyramiding), 마틴게일형 스케일링, 부분 감소, 전량 청산, 반대 포지션 전환 등 실제 트레이더가 사용하는 프리미티브를 모두 포함한다. 액션 마스크를 적용해 마진 부족 시 불가능한 행동을 자동으로 차단함으로써, 학습 단계와 평가 단계 모두에서 정책이 규제 위반을 하지 않도록 보장한다.

실험은 EUR/USD의 학습 구간을 대상으로 세 가지 연구 질문(RQ1‑RQ3)에 초점을 맞추었다. RQ1에서는 전체 보상 구성이 가장 높은 Sharpe와 수익을 제공했으며, 개별 페널티가 비단조적으로 작용함을 입증했다. RQ2에서는 10‑액션 인터페이스가 3‑액션 베이스라인 대비 누적 수익을 12% 이상 향상시켰지만, turnover가 1.8배 증가하고 Sharpe는 0.12 포인트 감소하는 결과를 보였다. 이는 제한된 학습 예산 하에서 액션 다양성이 반드시 위험‑보정 성과를 개선하지는 않음을 시사한다. RQ3에서는 피라미딩과 마틴게일 스케일링을 모두 활성화한 변형이 drawdown을 평균 22% 감소시키며, 포트폴리오 변동성을 억제하는 효과를 확인했다.

전체적으로 이 프레임워크는 (1) 실행 현실성, (2) 보상 투명성, (3) 액션 제약 관리라는 세 축을 동시에 만족시켜, 기존 연구가 하나의 축에만 집중했던 한계를 극복한다. 또한 구성 요소별 로그와 고정된 시드, 설정 스냅샷을 제공함으로써 재현성을 크게 향상시켰다. 다만, 실험이 단일 통화 페어와 제한된 기간에 국한되었으며, 실제 운용 환경에서의 실시간 데이터 피드와 주문 체결 지연을 완전히 재현하지는 못한다는 점이 한계로 남는다. 향후 연구에서는 멀티‑페어, 멀티‑에셋 시나리오와 온라인 학습(online learning) 적용을 통해 프레임워크의 일반화 가능성을 검증할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기