연속시간 강화학습 기반 평균분산 포트폴리오 선택 및 후회 분석
초록
본 논문은 관측 가능한 요인에 의해 구동되는 확산 과정으로 모델링된 주식 시장에서, 시장 파라미터를 추정하지 않고 직접 최적의 평균‑분산 투자 전략을 학습하는 연속시간 강화학습 프레임워크를 제안한다. 다중 자산 블랙‑숄즈 환경에 대해 특화된 알고리즘을 설계하고, 샤프 비율 기준의 서브리니어(regret) 상한을 이론적으로 증명한다. 또한 2000‑2020년 S&P 500 구성종을 대상으로 13개 기존 포트폴리오 방법과 비교 실험을 수행해, 변동성이 큰 약세장에서도 제안 방법이 일관되게 우수한 성과를 보임을 확인한다.
상세 분석
이 연구는 연속시간 강화학습(RL) 이론을 금융 포트폴리오 최적화에 적용한 최초 사례 중 하나로, 기존의 모델 기반 접근법이 직면한 두 가지 근본적인 한계—(1) 드리프트와 변동성 등 시장 계수의 정확한 추정 어려움, (2) 정적 평균‑분산 프레임워크를 동적 투자에 그대로 적용했을 때 발생하는 민감도 문제—를 근본적으로 회피한다. 논문은 먼저 주가와 요인이 모두 확산 과정(Itô 확산)으로 기술된 일반적인 시장 모델을 가정하고, 투자자는 이 과정의 구체적 계수를 전혀 알지 못한다는 최소 가정 하에 문제를 설정한다. 이때 ‘프리커밋(pre‑committed)’ 전략이라는 개념을 도입해, 투자 기간 전체에 걸쳐 한 번 고정된 정책을 학습하도록 설계한다는 점이 특징이다.
핵심 이론적 기여는 두 단계로 나뉜다. 첫째, Wang et al. (2020)과 Jia·Zhou (2022)의 연속시간 RL 프레임워크를 평균‑분산 목표에 맞게 변형한다. 여기서는 전통적인 가치 함수 대신, 마팅게일 조건을 이용해 순간 평균과 공분산을 직접 추정하는 ‘모멘트 조건’을 구축한다. 이 모멘트는 기존 GMM이나 최대우도와 달리, 에이전트가 실제 거래를 통해 생성하는 데이터(포트폴리오 가치, 자산 가격 등)를 그대로 활용하므로, 별도의 모델 추정 단계가 필요 없다. 둘째, 다자산 블랙‑숄즈 시장을 전제로 한 구체적 알고리즘을 제시한다. 정책은 선형 함수 근사기로 표현되며, 액터‑크리틱 구조에서 액터는 정책 파라미터를, 크리틱은 샤프 비율을 근사하는 가치 함수를 업데이트한다. 논문은 이 알고리즘이 확산 과정의 특성을 이용한 확률적 근사 분석을 통해 수렴함을 증명하고, ‘샤프 비율 기반 regret’가 (O(\sqrt{N})) 수준으로 서브리니어임을 보여준다. 여기서 (N)은 학습 에피소드 수이며, 이는 충분히 긴 학습 후에 이론적으로 최적 정책에 근접함을 의미한다.
실증 부분에서는 2000‑2020년 기간의 S&P 500 종목을 대상으로 1990‑2000년을 사전 학습(burn‑in) 기간으로 설정하고, 13개의 대표적인 포트폴리오 방법(시장 포트폴리오, 동등 가중, 샘플 평균, 팩터 모델, 베이지안 추정, 모델 기반 연속시간 MV, 선형 예측 모델, 두 종류의 일반 RL 등)과 비교한다. 평가 지표는 연간 수익률, 샤프 비율 및 변동성, 최대 손실폭, 회복 시간 등 성과 지표와 함께, 총 위험자산 노출, 회전율, 집중도, 파산 확률 등 거래 특성을 포함한다. 결과는 제안된 연속시간 RL 전략이 모든 지표에서 모델 기반 방법을 크게 앞서며, 특히 변동성이 큰 하락장(2008년 금융 위기 등)에서 위험 조정 수익률이 현저히 높음을 보여준다. 흥미롭게도, 딥러닝 기반 복잡한 예측 모델을 사용하지 않았음에도 불구하고, ‘모델 없이 직접 정책을 학습한다’는 패러다임 자체가 추정 오류와 과적합 위험을 근본적으로 차단한다는 점을 실증적으로 입증한다.
이 논문의 한계도 명시한다. 현재 분석은 순수 확산(연속적인 Itô 과정)만을 고려했으며, 점프·레버리지 등 현실적 특성을 포함하려면 추가적인 이론 확장이 필요하다. 또한 정책 근사에 사용된 선형 구조가 복잡한 비선형 시장 환경에서 최적성을 보장하지 않을 수 있다. 향후 연구는 점프‑디퓨전 모델, 비선형 함수 근사(예: 신경망)와 결합한 확장, 그리고 실제 운용 환경에서의 온라인 적응 메커니즘을 탐구할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기