그룹샤프 기반 금융 뉴스 키워드와 기술 지표 통합을 통한 주가 예측

초록

FinBERT로 뉴스 텍스트를 임베딩하고 의미적으로 유사한 키워드들을 그룹화한 뒤, GroupSHAP을 이용해 각 그룹의 기여도를 추정한다. 추출된 그룹‑레벨 SHAP 변수와 전통적 기술 지표를 GRU 모델에 입력해 S&P 500의 일일 종가를 예측했으며, 기존 베이스라인 대비 MAE 32.2%, RMSE 40.5% 개선을 달성했다.

상세 요약

본 논문은 금융 텍스트 분석과 시계열 예측을 결합한 새로운 프레임워크를 제시한다. 첫 번째 핵심은 FinBERT를 활용해 2015‑2024년 기간의 뉴스 기사를 고차원 벡터로 변환한 뒤, 의미적 유사성을 기반으로 K‑means 혹은 계층적 군집화로 키워드들을 그룹화한 점이다. 이 과정에서 단어 수준의 샤프값을 계산하면 조합 폭이 기하급수적으로 증가해 계산 비용이 비현실적이지만, 그룹 단위로 축소함으로써 차원 수를 수십 개 수준으로 낮추어 실시간 적용 가능성을 확보한다. 두 번째 핵심은 GroupSHAP 자체가 각 그룹에 대한 기여도를 공정하게 할당한다는 점이다. 기존 SHAP은 개별 특성의 마진 기여를 평가하지만, 금융 뉴스는 종종 다중 토픽이 얽혀 있어 개별 토큰의 의미가 희석된다. 그룹화된 토픽은 ‘정책·규제’, ‘기업 실적’, ‘거시경제’, ‘시장 심리’ 등으로 해석 가능해 해석성을 크게 향상시킨다.

모델 아키텍처는 GRU 기반 시계열 네트워크에 기술 지표(이동 평균, RSI, MACD 등)와 GroupSHAP 변수들을 병합 입력한다. GRU는 장기 의존성을 포착하면서도 LSTM 대비 파라미터가 적어 과적합 위험을 낮춘다. 학습 과정에서 교차 검증과 조기 종료를 적용해 일반화 성능을 검증했으며, 베이스라인으로는 전통적인 ARIMA, LSTM, 그리고 SHAP‑기반 단일 토큰 피처를 사용한 모델을 비교했다.

실험 결과는 2024년 전체 S&P 500 일일 종가에 대해 MAE가 0.0322, RMSE가 0.0405만큼 감소했으며, 특히 변동성이 큰 시점에서 그룹 샤프 변수의 가중치가 급격히 상승하는 현상이 관찰됐다. 이는 특정 뉴스 그룹(예: 연준 금리 정책)이 시장 움직임을 선행적으로 설명한다는 가설을 뒷받침한다.

한계점으로는(1) 키워드 군집화 단계에서 군집 수 선택이 결과에 민감하며, 자동화된 최적화 방법이 필요하고, (2) FinBERT가 영어 기반 모델이므로 비영어권 뉴스에 대한 적용성이 제한되며, (3) GroupSHAP 자체가 근사값을 제공하므로 정확한 샤프값과는 차이가 있을 수 있다. 향후 연구에서는 멀티모달 데이터(트위터, 포럼 등)와 멀티언어 모델을 결합하고, 베이지안 최적화를 통해 군집 수와 SHAP 파라미터를 자동 튜닝하는 방안을 모색할 수 있다. 또한, 실시간 스트리밍 환경에서 그룹 샤프 값을 업데이트하는 온라인 학습 메커니즘을 구축하면 투자 의사결정에 바로 활용할 수 있을 것이다.

전반적으로 본 연구는 그룹화된 텍스트 해석과 시계열 모델을 효과적으로 결합함으로써, 금융 뉴스의 복합적 의미를 유지하면서도 계산 효율성과 해석 가능성을 동시에 달성한 점이 혁신적이다.

초록

상세 요약

📜 논문 원문 (영문)