뉴스 감성 기반 주가 흐름 예측

뉴스 감성 기반 주가 흐름 예측
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 기업 관련 금융 뉴스의 감성(긍정·부정) 분류를 통해 주가 추세를 예측하는 모델을 제안한다. 텍스트 전처리와 TF‑IDF·워드 임베딩을 활용해 특징을 추출하고, 랜덤 포레스트(RF), 서포트 벡터 머신(SVM), 나이브 베이즈(NB) 세 가지 분류기를 학습시켰다. 실험 결과 RF와 SVM이 모든 테스트에서 높은 정확도를 보였으며, 전체 모델의 예측 정확도는 80% 이상으로 무작위 라벨링(50%) 대비 약 30% 향상되었다.

상세 분석

본 논문은 효율적 시장 가설(EMH)의 한계를 지적하고, 비정량적 정보인 뉴스 텍스트가 주가 변동에 미치는 영향을 정량화하려는 시도로서 의미가 크다. 데이터 수집 단계에서 특정 기업을 대상으로 주요 금융 포털 및 뉴스 사이트에서 일정 기간 동안의 기사 본문을 크롤링했으며, 기사마다 발행일과 해당 기업의 티커를 메타데이터로 저장하였다. 텍스트 전처리 과정은 불용어 제거, 형태소 분석, 어간 추출 등을 포함했으며, 한국어 특성상 형태소 분석기(Kkma, Mecab 등)를 활용해 명사·동사·형용사를 추출하였다. 특징 추출은 두 축을 병행했다. 첫째, 전통적인 TF‑IDF 벡터를 구축해 단어 빈도 기반의 가중치를 부여했으며, 둘째, Word2Vec 혹은 FastText와 같은 사전 학습된 워드 임베딩을 평균 풀링하여 문서 수준의 밀집 표현을 얻었다. 이렇게 얻은 피처는 차원 축소(PCA)와 정규화를 거쳐 최종 입력으로 사용되었다.

분류 모델로는 랜덤 포레스트(RF), 서포트 벡터 머신(SVM), 나이브 베이즈(NB)를 선택했는데, 각각의 알고리즘 특성을 고려한 하이퍼파라미터 튜닝이 이루어졌다. RF는 트리 수와 최대 깊이, SVM은 커널 종류(RBF)와 정규화 파라미터 C, NB는 라플라스 스무딩을 적용하였다. 교차 검증(5‑fold)과 별도 테스트 셋을 활용해 모델의 일반화 성능을 평가했으며, 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1‑Score를 주요 지표로 삼았다. 실험 결과 RF와 SVM이 80% 이상의 정확도를 기록했으며, 특히 장기 추세(5일 이상) 예측에서 RF가 가장 안정적인 성능을 보였다. NB는 빠른 학습 속도와 비교적 양호한 성능을 보였지만, 복잡한 비선형 관계를 포착하는 데 한계가 있었다.

또한, 모델의 실용성을 검증하기 위해 ‘무작위 라벨링’ 실험을 수행했다. 이는 기사 감성을 50% 확률로 무작위 할당한 뒤 동일한 분류 파이프라인을 적용한 것으로, 평균 정확도가 50%에 머물렀다. 따라서 제안된 감성 기반 접근법이 실제 시장 신호를 포착한다는 점을 통계적으로 입증했다. 다만, 데이터 편향(특정 산업군 과다 대표)과 뉴스 발표 시점과 실제 주가 반영 시점 간의 시차 문제, 그리고 감성 라벨링의 주관성(사전 정의된 사전 vs. 인간 라벨러) 등 몇 가지 한계점이 논의되었다. 향후 연구에서는 멀티모달 데이터(재무 지표, 소셜 미디어)와 시계열 모델(LSTM, Transformer) 결합을 통해 예측 정확도를 더욱 높이고, 실시간 트레이딩 시스템에 적용 가능한 엔드‑투‑엔드 파이프라인을 구축하는 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기