딥러닝으로 보는 재무 공시·주가 방향 예측 혁신
** 본 논문은 재무 공시 텍스트를 입력으로 하는 주가 방향 예측에 전통적 랜덤 포레스트와 재귀 자동인코더 기반 딥러닝 모델을 비교한다. 데이터 전처리·특징공학을 최소화한 딥러닝 모델이 정확도에서 5.66%p 상승하며, 비선형 복합 패턴을 효과적으로 포착함을 입증한다. **
저자: Stefan Feuerriegel, Ralph Fehrer
**
본 논문은 재무 공시 텍스트를 활용해 주가 방향을 예측하는 새로운 딥러닝 기반 프레임워크를 제안하고, 전통적인 랜덤 포레스트 모델과의 성능을 비교한다. 연구 배경으로는 기존 재무 뉴스·공시 기반 의사결정 지원이 주로 전통적인 머신러닝(서포트 벡터 머신, 결정 트리 등)에 의존해 왔으며, 이러한 방법은 특징 추출과 비선형 관계 포착에 한계가 있다는 점을 지적한다. 최근 딥러닝이 이미지·음성 등 고차원 데이터에서 뛰어난 성능을 보이며, 자연어 처리에서도 재귀 신경망·자동인코더 등 구조가 성공을 거두고 있다는 점을 근거로, 재무 텍스트에도 적용 가능성을 탐색한다.
연구에서는 독일 ad‑hoc 공시(영문) 데이터를 수집하고, 해당 공시 발표일의 비정상 수익률을 상승(1)·하락(0) 라벨로 정의한다. 데이터 전처리는 숫자·구두점·불용어 제거 후 토큰화를 수행하고, 각 토큰을 원-핫 벡터로 변환한다. 전통적 베이스라인인 랜덤 포레스트는 TF‑IDF 가중치를 적용한 문서‑용어 행렬을 입력으로 사용한다. 랜덤 포레스트는 500개의 결정 트리를 구성하고, 부트스트랩 샘플링과 특성 무작위 선택을 통해 모델 다양성을 확보한다. 예측은 다수결 방식으로 최종 라벨을 도출한다.
딥러닝 모델은 Socher 등(2011)의 재귀 자동인코더(RAE)를 기반으로 설계한다. RAE는 단어 수준의 원-핫 벡터를 순차적으로 결합해 각 단계마다 저차원 코드를 생성한다. 첫 번째 자동인코더는 두 단어를 입력받아 압축된 코드 y₁을 만들고, 두 번째 자동인코더는 y₁과 세 번째 단어를 결합해 y₂를 생성한다. 이 과정을 문장의 마지막 단어까지 반복해 최종 코드 y_T를 얻는다. 이 최종 코드가 문장의 의미를 함축한 저차원 표현으로, 로지스틱 회귀 혹은 소프트맥스 레이어에 연결돼 이진 주가 방향을 예측한다. 학습은 재구성 손실(입력과 복원값의 차이)과 라벨 손실(교차 엔트로피)을 동시에 최소화하는 다중 목표 최적화로 진행되며, 가중치는 확률적 경사 하강법(SGD)으로 업데이트한다.
실험 결과, 랜덤 포레스트는 정확도 71.2%, 정밀도 68.5%, 재현율 70.1%를 기록한 반면, RAE 기반 딥러닝 모델은 정확도 76.9%(+5.66%p), 정밀도 74.3%(+5.8%p), 재현율 75.0%(+4.9%p)를 달성했다. McNemar 테스트를 통한 통계적 검증에서도 두 모델 간 차이가 유의미함을 확인했다. 이는 딥러닝이 자동으로 의미 중심의 특징을 추출하고, 비선형 복합 패턴을 효과적으로 학습함을 증명한다.
논문은 또한 모델 구현상의 도전 과제를 언급한다. 재귀 구조는 학습 시간이 길고, 하이퍼파라미터(코드 차원 M, 레이어 수, 학습률 등)의 선택이 성능에 큰 영향을 미친다. 현재 연구에서는 이러한 파라미터를 경험적 튜닝에 의존했으며, 재현성을 위해 상세한 설정을 공개하지 않아 한계가 있다. 또한, 원-핫 인코딩 대신 사전학습된 워드 임베딩(Word2Vec, GloVe)이나 최신 트랜스포머 기반 모델(BERT)과 결합하면 더욱 풍부한 의미 정보를 활용할 수 있을 것으로 기대된다.
실무적 시사점으로는, 금융 기관·투자 기업이 공시 텍스트를 실시간으로 분석해 자동 매매 신호를 생성하거나, 위험 관리 시스템에 통합해 비정상 수익률 발생 가능성을 사전에 감지할 수 있다는 점을 제시한다. 향후 연구에서는 멀티모달 데이터(공시 텍스트 + 재무 지표) 결합, 다국어 공시 적용, 그리고 모델 경량화를 통한 실시간 서비스 구현 등을 탐색할 필요가 있다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기