투자자 지식 기반 동적 스태킹 앙상블로 다중소스 금융 데이터 활용 주가지수 예측

투자자 지식 기반 동적 스태킹 앙상블로 다중소스 금융 데이터 활용 주가지수 예측

초록

**
본 논문은 전역 주가지수, 산업별 지수, 금융 뉴스 등 이질적인 금융 데이터를 투자자의 인지 특성을 반영한 두 단계 동적 스태킹 앙상블 모델에 통합한다. 1단계에서는 데이터 특성에 맞는 맞춤형 신경망으로 특징을 추출하고, 2단계에서는 시간 창별 최적 메타‑분류기를 동적으로 선택한다. 중국 상하이 종합지수(SSEC), 심천 성분지수(SZEC), 성장기업지수(GEI)의 일일 상승·하락을 예측한 결과, 정확도에서 기존 최고 모델보다 각각 1.42%, 7.94%, 7.73% 향상했으며, 제안된 트레이딩 전략도 누적수익률·샤프비율 모두 우수했다.

**

상세 분석

**
이 연구는 “투자자 지식 표현(investor knowledge representations)”이라는 개념을 도입해, 투자자가 각 데이터 소스를 어떻게 인식하고 처리하는지를 모델링한다는 점에서 독창적이다. 기존의 멀티모달 금융 예측 연구는 주로 데이터 간 단순 결합이나 동일한 네트워크 구조를 적용하는 데 그쳤지만, 본 논문은 데이터 유형별(전역 지수, 산업 지수, 뉴스 텍스트)로 서로 다른 신경망 아키텍처—예를 들어 시계열 데이터에는 LSTM/GRU, 텍스트 데이터에는 Transformer 기반 인코더—를 설계해 특화된 특징을 학습한다. 이는 각 소스가 내포한 시계열 패턴, 텍스트 감성, 그리고 구조적 상관관계를 보다 정교하게 포착한다는 장점이 있다.

두 번째 단계인 동적 스태킹은 메타‑분류기 풀(예: XGBoost, LightGBM, SVM, MLP) 중에서 현재 시간 창의 데이터 분포와 성능 지표를 실시간으로 평가해 최적 모델을 선택한다. 이를 위해 논문은 윈도우 기반 검증과 메타‑러닝 기법을 결합했으며, 메타‑피처로는 1단계에서 추출된 특징들의 통계량, 최근 예측 오차, 시장 변동성 지표 등을 활용한다. 이러한 동적 선택 메커니즘은 금융 시장의 비정상성(non‑stationarity)과 구조적 전환을 효과적으로 대응한다는 점에서 실용적이다.

실험에서는 2010‑2022년 일일 데이터를 사용해 5‑fold 시계열 교차 검증을 수행했으며, 베이스라인으로는 단일 LSTM, CNN‑LSTM, 전통적인 ARIMA, 그리고 기존 멀티소스 앙상블 모델을 포함했다. 제안 모델은 SSEC에서 1.42%p, SZEC에서 7.94%p, GEI에서 7.73%p의 정확도 향상을 기록했으며, 특히 변동성이 큰 SZEC와 GEI에서 큰 폭의 개선을 보였다. 이는 동적 메타‑분류기 선택이 시장 상황에 따라 적절히 전환되었기 때문으로 해석된다.

거래 전략 테스트에서는 예측 결과를 기반으로 ‘상승 → 매수, 하락 → 매도’ 시그널을 생성하고, 포트폴리오 재조정을 일일 단위로 수행했다. 누적 수익률과 샤프비율 모두 기존 전략(단순 이동 평균 교차, 고정 메타‑분류기 기반)보다 현저히 높았다. 다만, 거래 비용과 슬리피지를 고려하지 않은 점은 실제 적용 시 과대평가될 가능성이 있다.

한계점으로는 (1) 데이터 소스가 중국 시장에 국한돼 있어 글로벌 적용 가능성을 검증하지 않았으며, (2) 투자자 지식 표현을 구체적으로 정의하고 정량화하는 방법론이 다소 추상적이라는 점, (3) 메타‑분류기 선택 기준이 복합적인 하이퍼파라미터 튜닝에 의존해 재현성이 떨어질 수 있다는 점을 들 수 있다. 향후 연구에서는 다국적 시장 데이터, 보다 정형화된 투자자 행동 모델(예: 행동경제학 설문 기반) 및 강화학습 기반 포트폴리오 최적화를 결합해 모델의 일반화와 실전 적용성을 높일 여지가 있다.

**