키워드 기반 주가 예측 인터프리터 네트워크

IKNet은 FinBERT를 이용해 뉴스 기사에서 의미 있는 키워드를 추출하고, 각 키워드 임베딩을 개별 비선형 투영층으로 변환한 뒤 기술 지표와 결합해 다음 영업일 종가를 예측한다. SHAP 기법을 적용해 각 키워드가 예측에 미치는 정량적 기여도를 제공함으로써 모델의 투명성을 높인다. S&P 500 데이터(2015‑2024) 실험에서 기존 RNN·Tran

키워드 기반 주가 예측 인터프리터 네트워크

초록

IKNet은 FinBERT를 이용해 뉴스 기사에서 의미 있는 키워드를 추출하고, 각 키워드 임베딩을 개별 비선형 투영층으로 변환한 뒤 기술 지표와 결합해 다음 영업일 종가를 예측한다. SHAP 기법을 적용해 각 키워드가 예측에 미치는 정량적 기여도를 제공함으로써 모델의 투명성을 높인다. S&P 500 데이터(2015‑2024) 실험에서 기존 RNN·Transformer 기반 모델 대비 RMSE를 최대 32.9% 감소시키고 누적 수익률을 18.5% 향상시켰다.

상세 요약

IKNet은 기존 뉴스 기반 주가 예측 모델이 전체 기사에 대해 단일 감성 점수나 평균 임베딩을 사용하는 한계를 극복하기 위해 설계되었다. 핵심 아이디어는 “키워드”라는 미세 단위에 초점을 맞추어, 각 키워드가 특정 시점의 주가 변동에 어떤 양적 영향을 미치는지를 직접 모델링하는 것이다. 이를 위해 먼저 FinBERT(금융 도메인에 특화된 BERT)를 활용해 뉴스 텍스트를 토큰화하고, 토큰‑레벨의 컨텍스트 정보를 기반으로 TF‑IDF와 attention 가중치를 결합한 가중치 스코어링 방식을 적용한다. 상위 k 개의 키워드(논문에서는 k=20)를 선택하고, 각 키워드에 대해 사전 훈련된 Word2Vec/FinBERT 임베딩을 추출한다.

선택된 키워드 임베딩은 동일한 차원의 비선형 투영층(다층 퍼셉트론)으로 각각 매핑된다. 이 단계는 키워드별 의미 공간을 주가 변동과 더 직접적으로 연관시킬 수 있도록 하며, 파라미터 공유를 하지 않음으로써 키워드 간 상호작용을 억제하고 해석성을 유지한다. 투영된 키워드 벡터들은 시계열 차원에서 동일한 시간 스탬프에 정렬된 후, 전통적인 기술 지표(이동 평균, RSI, MACD 등)와 concatenate 된다. 통합된 피처는 이후 LSTM 기반 시계열 디코더에 입력되어 다음 영업일 종가를 회귀적으로 예측한다.

예측 결과에 대한 해석은 Shapley Additive Explanations(SHAP)를 적용해 수행한다. SHAP 값은 각 키워드 투영 벡터가 최종 예측에 기여한 정도를 정량화하며, 시간에 따라 변동하는 기여도 그래프를 제공한다. 이를 통해 투자자는 “특정 키워드가 급등/급락을 유발한 시점”을 직관적으로 파악할 수 있다.

실험은 2015‑2024년 S&P 500 종목 500개에 대해 일별 종가와 해당 일의 주요 뉴스 헤드라인을 수집한 데이터셋을 사용했다. 베이스라인으로는 전통적인 ARIMA, LSTM, Transformer‑Encoder, 그리고 뉴스 감성 점수 기반 Fusion 모델을 포함했다. 평가 지표는 RMSE, MAE, 그리고 백테스트 기반 누적 수익률(ROR)이다. 결과는 IKNet이 RMSE에서 평균 24.7%(최대 32.9%) 개선을 보였으며, 백테스트에서는 베이스라인 대비 연간 수익률을 18.5% 상승시켰다. 특히 변동성이 큰 이벤트(예: 금리 발표, 기업 실적 발표)에서 키워드 기여도가 급격히 변하는 패턴을 포착함으로써 모델의 신뢰성을 입증했다.

한계점으로는 키워드 수 k 와 투영층 차원 d 에 대한 민감도가 존재하며, 과도한 키워드 선택 시 과적합 위험이 있다. 또한 FinBERT 기반 키워드 추출은 영어 뉴스에 최적화돼 있어 다국어 적용 시 추가 전처리와 모델 재학습이 필요하다. 향후 연구에서는 멀티모달 어텐션 메커니즘을 도입해 키워드 간 상호작용을 모델링하고, 실시간 스트리밍 데이터에 대한 온라인 학습 프레임워크를 구축하는 방향을 제시한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...