뉴스 텍스트로 비정상 수익 예측: SVM과 다중 커널 학습의 혁신

본 논문은 뉴스 기사 텍스트를 특징으로 활용해 당일 intraday 비정상 수익(절대값 급등)을 예측하는 방법을 제시한다. 지원 벡터 머신(SVM)과 다중 커널 학습(MKL)을 결합하고, 커널 가중치를 효율적으로 최적화하기 위해 분석 중심 절단 평면법(ACCPM)을 도입하였다. 실험 결과, 순수 가격 데이터만을 이용한 예측보다 텍스트 기반 특징이 절대 수익 예측 정확도를 현저히 향상시켰으며, 수익 방향성은 예측이 어려운 반면 크기(절대값)는 의…

저자: ** - Ronny Luss (ORFE Department, Princeton University) – rluss@princeton.edu - Alex, re d’Aspremont (ORFE Department

뉴스 텍스트로 비정상 수익 예측: SVM과 다중 커널 학습의 혁신
본 논문은 “뉴스 텍스트를 이용한 비정상 수익 예측”이라는 주제로, 텍스트 마이닝과 기계 학습을 금융 시계열 분석에 접목시킨 연구이다. 서론에서는 기존 자산 가격 모델이 뉴스와 같은 외생 정보를 충분히 반영하지 못한다는 점을 지적하고, 과거 연구에서 뉴스가 변동성에 미치는 영향이 확인됐음에도 불구하고 정량적 예측 모델은 부족했음을 언급한다. 관련 연구 파트에서는 ARCH/GARCH 모델, 신경망, SVM을 이용한 변동성 예측 사례와, 텍스트 분류에 SVM, 나이브 베이즈, 서포트 벡터 회귀(SVR) 등을 적용한 금융 분야 연구들을 정리한다. 특히, 텍스트를 직접적으로 변동성 예측에 활용한 사례와, 뉴스 헤드라인을 GARCH 모델에 외생 변수로 삽입한 사례를 소개한다. 핵심 방법론은 두 단계로 구성된다. 첫 번째 단계는 텍스트와 가격 데이터를 각각 특징 벡터로 변환하는 과정이다. 텍스트는 사전(619개 핵심 어휘) 기반 bag‑of‑words 모델에 TF‑IDF 가중치를 적용해 문서‑용어 행렬을 만든다. 가격 데이터는 보도 시점 이전 5분 간격으로 5개의 절대 수익을 추출한다. 두 번째 단계는 이질적인 특징을 결합하는 다중 커널 학습(MKL)이다. 텍스트와 가격 각각에 적합한 커널(예: 선형, 가우시안, bag‑of‑words)을 정의하고, 각 커널에 가중치를 부여해 전체 커널을 선형 결합한다. 가중치 최적화는 전통적인 2차 계획법보다 계산량이 크므로, 분석 중심 절단 평면법(ACCPM)을 도입해 효율적으로 해결한다. ACCPM은 제약 집합이 단순히 양의 반정밀성인 경우, 해의 분석 중심을 반복적으로 계산해 최적해에 빠르게 수렴한다. 실험 데이터는 2000‑2007년 PRNewswire에 게재된 기업 보도 자료와 NYSE TAQ 가격 데이터를 매칭한 것으로, 월별로 1년 학습‑1개월 테스트 슬라이드 윈도우를 적용해 실제 거래 환경을 모사한다. 보도 시점 이후 10분부터 250분까지의 구간에 절대 수익이 사전에 정의한 임계값을 초과하면 ‘양성’으로 라벨링하고, 그렇지 않으면 ‘음성’으로 라벨링한다. 이렇게 구성된 이진 분류 문제를 SVM 기반 모델로 학습한다. 성능 평가는 정확도·재현율·F1 점수와 더불어 금융 실무에서 직관적인 샤프 비율을 사용한다. 샤프 비율은 매 보도 시점마다 $1을 베팅했을 때의 기대 수익 대비 변동성을 측정한다. 결과는 다음과 같다. (1) 텍스트만을 사용한 모델이 가격만을 사용한 모델보다 평균 정확도와 샤프 비율 모두에서 우수했다. 특히 10‑30분 짧은 예측 창에서 텍스트의 예측력이 가장 높았다. (2) 가격과 텍스트를 MKL로 결합한 모델은 단일 소스 모델보다 추가적인 성능 향상을 보였으며, 최적 커널 가중치는 실험마다 다르게 학습되었다. (3) 수익 방향(양·음)은 어느 모델도 유의미하게 예측하지 못했으며, 이는 기존 연구와 일치한다. 논문의 주요 기여는 세 가지이다. 첫째, 뉴스 텍스트가 비정상 절대 수익(변동성) 예측에 실질적인 정보를 제공한다는 실증적 증거를 제시했다. 둘째, 다중 커널 학습을 통해 텍스트와 가격이라는 이질적인 데이터를 효과적으로 통합하고, 이를 통해 분류 성능을 향상시켰다. 셋째, 분석 중심 절단 평면법을 적용해 대규모 MKL 최적화 문제를 실용적인 시간 안에 해결할 수 있음을 보여주었다. 마지막으로, 향후 연구 방향으로는 (1) 딥러닝 기반 워드 임베딩이나 문장 수준의 의미 표현을 도입해 텍스트 특징을 강화, (2) 실시간 뉴스 스트림과 고빈도 거래 데이터를 결합한 초단기 예측 모델 개발, (3) 예측 결과를 포트폴리오 최적화와 위험 관리에 직접 연결하는 트레이딩 전략 설계 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기