합성 금융 데이터 생성을 위한 딥 생성 모델 포트폴리오와 위험 모델링 적용
본 논문은 TimeGAN과 VAE를 활용해 S&P 500 일일 수익률을 기반으로 합성 금융 시계열을 생성하고, 통계적 유사성, 시간적 구조, 그리고 평균‑분산 포트폴리오 최적화와 위험 시뮬레이션 같은 실제 금융 과업에서의 성능을 평가한다. 결과는 TimeGAN이 실제 데이터와 거의 동일한 분포와 변동성, 자기상관을 재현하며, 합성 데이터를 이용한 포트폴리오
초록
본 논문은 TimeGAN과 VAE를 활용해 S&P 500 일일 수익률을 기반으로 합성 금융 시계열을 생성하고, 통계적 유사성, 시간적 구조, 그리고 평균‑분산 포트폴리오 최적화와 위험 시뮬레이션 같은 실제 금융 과업에서의 성능을 평가한다. 결과는 TimeGAN이 실제 데이터와 거의 동일한 분포와 변동성, 자기상관을 재현하며, 합성 데이터를 이용한 포트폴리오 구성이 실제 데이터와 유사한 샤프 비율과 위험 수준을 제공함을 보여준다. VAE는 학습이 안정적이지만 극단적 변동을 평활화해 위험 추정에 약간의 편향을 만든다. 연구는 합성 데이터가 프라이버시 보호와 재현성을 동시에 만족하는 유용한 대안임을 시사한다.
상세 요약
본 연구는 딥러닝 기반 생성 모델을 금융 시계열 데이터에 적용함으로써 데이터 접근성·프라이버시·재현성 문제를 해결하고자 한다. 두 모델은 Time-series Generative Adversarial Network(TimeGAN)와 Variational Autoencoder(VAE)이며, 각각의 구조적 특성이 합성 데이터의 질에 미치는 영향을 비교한다. TimeGAN은 GAN의 생성·판별 네트워크와 순환형 인코더·디코더를 결합해 시계열의 장기 의존성을 학습한다. 특히, 임베딩 손실과 순차 손실을 동시에 최소화함으로써 시계열의 동적 패턴을 보존한다. 반면 VAE는 인코더가 입력을 잠재 공간에 확률적 분포로 매핑하고, 디코더가 이를 재구성하는 방식으로, KL 발산을 정규화 항으로 사용한다. VAE는 학습이 비교적 안정적이며 모드 붕괴 위험이 낮지만, 손실 함수가 평균 제곱 오차 중심이기 때문에 급격한 변동성을 과도하게 스무딩하는 경향이 있다.
데이터는 2000년~2020년 사이 S&P 500 구성 종목의 일일 종가를 이용해 로그 수익률을 계산한 뒤, 전체 시장 상황을 반영하도록 동일한 기간의 실제 데이터와 동일한 통계적 특성을 갖는 10개의 합성 데이터셋을 각각 생성하였다. 평가 지표는 (1) 분포 유사성: Kolmogorov‑Smirnov(KS) 검정, 차원별 평균·분산, 꼬리 위험 지표(CVaR) 비교; (2) 시간적 구조: 자동상관함수(ACF), 부분자동상관함수(PACF), 변동성 클러스터링(ARCH‑LM) 테스트; (3) 다운스트림 과업: 평균‑분산 최적화에서 얻은 포트폴리오 가중치, 샤프 비율, 포트폴리오 VaR/CVaR를 실제 데이터와 비교.
실험 결과, TimeGAN은 KS 검정에서 p값이 0.45 이상으로 실제와 구별이 어려웠으며, ACF와 PACF가 실제와 거의 일치했다. 특히 변동성 클러스터링 테스트에서 실제와 동일한 ARCH 효과를 재현했다. 포트폴리오 최적화 시, TimeGAN 기반 합성 데이터는 실제 데이터와 차이 없는 가중치 분포와 0.02 수준의 샤프 비율 차이를 보였다. VAE는 KS 검정에서 p값이 0.12로 다소 차이가 있었고, 극단 손실(CVaR)에서 5~7% 정도 과소평가하였다. 그러나 학습 과정에서 모드 붕괴가 거의 없었고, 파라미터 튜닝이 간단했다는 장점이 있다.
한계점으로는 (1) 시장 충격(예: 2008년 금융위기)과 같은 비선형 이벤트를 완전히 재현하지 못함; (2) 모델이 고빈도 데이터나 다변량 상관관계(공동 변동성)를 다루는 데 추가적인 구조적 확장이 필요함; (3) 합성 데이터의 법적·규제적 인정 여부는 별도 검토가 필요하다. 향후 연구는 Transformer 기반 시계열 생성 모델, 조건부 생성(예: 거시경제 변수 조건) 및 멀티에셋 포트폴리오 시뮬레이션에의 적용을 제안한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...