멀티호라이즌 금융 예측을 위한 딥러닝 아키텍처 비교: 918 실험의 통제된 증거

본 논문은 “멀티호라이즌 금융 예측을 위한 딥러닝 아키텍처 비교”라는 주제로, 최근 급증하고 있는 다양한 시계열 딥러닝 모델들의 실제 금융 데이터에 대한 성능을 체계적으로 평가한다. 연구자는 기존 벤치마크가 하이퍼파라미터 튜닝 불균형, 단일 시드 사용, 단일 지평선 평가, 통계적 사후 검정 부재, 그리고 자산군 제한 등 5가지 주요 결함(G1~G5)을 지적하고, 이를 모두 해결하는 ‘5단계 프로토콜’을 설계하였다. 1. **프로토콜 설계** - **고정 시드 베이지안 HPO**: Optuna TPE를 5회 실행해 각 모델·자산군별 최적 하이퍼파라미터를 탐색하고, 시드 42로 고정한다. - **자산군별 구성 고정**: 최적 파라미터를 암호화폐, 외환, 주가지수 각각에 적용해 동일 설정을 유지한다. - **다중 시드 재학습**: 최종 학습을 시드 123, 456, 789로 각각 3번 수행해 시드 변동성을 측정한다. - **불확실성 집계**: 각 실험의 RMSE를 평균·표준편차로 정리하고, 부트스트랩을 통해 95% 신뢰구간을 산출한다. - **통계적 검증**: 순위 기반 윌콕슨·스피어만 상관, ANOVA, 사후 다중 비교(FDR 제어) 등을 적용해 모델 간 차이를 검증한다. 2. **실험 설계** - **데이터**: 3개 시장(암호화폐, 외환, 주가지수)에서 각각 4종의 대표 자산을 선정, OHLCV(시가·고가·저가·종가·거래량) 5개 피처를 사용한다. - **예측 지평선**: 4시간(h=4)과 24시간(h=24) 두 단계로 설정, 각각 12개의 평가 포인트(자산·지평선) 총 24개. - **모델**: Transformer 계열(Autoformer, iTransformer, PatchTST, TimeXer), MLP·Linear 계열(DLinear, N‑HiTS), CNN·TCN 계열(ModernTCN, TimesNet), RNN 계열(LSTM) 등 9가지. - **실험 규모**: HPO 270회, 최종 학습 648회, 총 918 실행. 3. **주요 결과** - **아키텍처 우위**: ModernTCN이 평균 순위 1.333, 1위 차지 비율 75%로 가장 우수. PatchTST이 평균 순위 2.000으로 2위. - **계층적 순위 구조**: 상위 2개 모델, 중위 3~5개 모델, 하위 2개 모델로 명확히 구분되는 3계층 구조가 발견. - **분산 분석**: 두 요인(아키텍처, 시드) ANOVA 결과, 아키텍처가 전체 RMSE 변동의 99.90%를 설명, 시드 변동은 0.01%에 불과. 따라서 3시드 복제만으로도 충분히 안정적인 결과를 얻을 수 있다. - **지평선 안정성**: 4시간과 24시간 순위 간 스피어만 상관계수 ρ≈0.92, 높은 일관성. 다만 절대 RMSE는 지평선이 6배 늘어남에 따라 2~2.5배 증가해 오류 증폭이 존재함을 확인. - **방향성 정확도**: 모든 모델·자산·지평선 조합에서 상승·하락 맞추는 정확도는 49.8%~50.3% 수준, 통계적으로 50%와 차이가 없어 MSE 기반 학습이 방향성 정보를 포착하지 못함을 시사. - **복잡도‑성능 관계**: 파라미터 수와 RMSE 순위 간 단조 감소 관계는 부정. 오히려 큰 커널·패치 기반 인덕티브 바이어스가 성능에 큰 영향을 미침. 4. **시사점 및 실무 적용** - **아키텍처 선택이 핵심**: 파라미터 수보다 구조적 inductive bias(대규모 커널, 패치 토큰화)가 중요하므로, 실무에서는 ModernTCN이나 PatchTST와 같은 모델을 우선 고려한다. - **시드 복제 최소화**: 3시드만으로도 변동성을 충분히 포착 가능하므로, 연구·실무에서 과도한 시드 반복을 줄이고 자원 효율성을 높일 수 있다. - **손실 함수 재설계 필요**: 방향성 예측이 목표라면 MSE 외에 방향성 보상 항(예: 크로스엔트로피, 순위 손실)이나 별도 분류 모델을 결합해야 한다. - **다중 지평선 검증**: 짧은 지평선에서 좋은 모델이 긴 지평선에서도 일관된 성능을 보이므로, 초기 파일럿 단계에서 4시간 예측으로 모델을 선정해도 장기 예측에 적용 가능하다. 5. **제한점 및 향후 연구** - **시장·기간 제한**: 본 연구는 3개 시장·12개월 내 데이터에 한정, 다른 자산군(예: 채권, 원자재)이나 장기(주간·월간) 예측에 대한 일반화는 추가 검증이 필요하다. - **손실 함수 다양성**: 현재는 MSE만 사용했으며, 손실 함수 변형이 성능·방향성에 미치는 영향을 체계적으로 탐구할 여지가 있다. - **멀티모달·외생 변수**: 현재 OHLCV만 사용했으나, 뉴스, 소셜 미디어, 거시경제 지표 등 외생 변수를 포함한 멀티모달 모델의 효과를 평가할 수 있다. 6. **재현성** - 코드, 전처리 파이프라인, 학습된 모델 가중치, 전체 실험 로그를 모두 공개하고, Docker 이미지와 상세 매뉴얼을 제공해 연구자 누구나 동일 프로토콜을 재현할 수 있도록 설계하였다. 결론적으로, 이 논문은 금융 시계열 멀티스텝 예측에서 딥러닝 아키텍처 간 차이를 통제된 실험과 엄격한 통계 검증을 통해 명확히 규명했으며, 실무 적용 시 아키텍처 선택과 손실 함수 설계가 핵심적인 영향을 미친다는 중요한 교훈을 제공한다.

멀티호라이즌 금융 예측을 위한 딥러닝 아키텍처 비교: 918 실험의 통제된 증거

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기