주식시장 예측을 위한 머신러닝 모델

주식시장 예측을 위한 머신러닝 모델

초록

본 논문은 과거 주가 데이터와 경제 지표를 활용하여 딥러닝 기반 예측 모델을 설계하고, LSTM과 XGBoost를 결합한 하이브리드 구조가 기존 통계 모델 대비 높은 정확도를 보임을 실증한다. 데이터 전처리, 특성 선택, 모델 학습 및 평가 과정을 상세히 제시하고, 향후 실시간 트레이딩 시스템 적용 가능성을 논의한다.

상세 분석

본 연구는 주식시장 예측이라는 고난이도 문제에 머신러닝, 특히 시계열 특화 모델인 LSTM(Long Short‑Term Memory)과 트리 기반 앙상블인 XGBoost를 결합한 하이브리드 프레임워크를 제안한다. 데이터 수집 단계에서는 10년간의 일별 종가, 거래량, 고가·저가 등 기본 가격 정보와 함께 금리, 환율, 원자재 가격 등 거시경제 지표를 추가로 수집하였다. 결측치와 이상치를 처리하기 위해 이동 평균 기반 보간과 IQR 방식을 적용했으며, 정규화는 Z‑score 변환을 사용해 각 특성의 스케일을 통일하였다.

특성 엔지니어링에서는 기술적 지표(예: MACD, RSI, Bollinger Bands)를 계산하고, 시계열의 계절성을 반영하기 위해 주간·월간 차이를 추가하였다. 또한, 피처 중요도 분석을 위해 XGBoost의 SHAP 값을 활용, 불필요하거나 상관관계가 높은 변수를 제거함으로써 차원 축소와 모델 복잡도 감소를 동시에 달성하였다.

모델 구조는 두 단계로 이루어진다. 첫 번째 단계는 LSTM 네트워크를 이용해 시계열 패턴을 학습하고, 은닉 상태를 고차원 특징 벡터로 추출한다. 두 번째 단계에서는 이 벡터와 기존 정형 특성을 결합하여 XGBoost에 입력함으로써 비선형 상호작용과 트리 기반의 강력한 회귀 능력을 보완한다. 하이퍼파라미터 튜닝은 베이지안 최적화를 사용했으며, 학습률, LSTM 레이어 수, XGBoost 트리 깊이 등을 최적화하였다.

평가 지표로는 RMSE, MAE, MAPE, 그리고 투자 관점에서 중요한 Sharpe Ratio를 채택하였다. 베이스라인으로는 ARIMA, 전통적인 회귀 모델, 단일 LSTM, 단일 XGBoost를 비교했으며, 제안 모델은 평균 RMSE 2.3% 감소, Sharpe Ratio 0.45 상승 등 전반적인 성능 향상을 입증했다. 특히 변동성이 큰 시기(예: 2020년 코로나19 급락)에도 비교적 안정적인 예측을 유지한 점이 주목할 만하다.

한계점으로는 데이터 기간이 제한적이며, 외부 충격(정치·재난 사건)에 대한 민감도가 충분히 검증되지 않았다는 점을 들었다. 또한, 실시간 트레이딩에 적용하기 위한 latency와 모델 업데이트 주기에 대한 추가 연구가 필요하다. 향후 연구에서는 멀티태스크 학습으로 여러 종목을 동시에 예측하거나, 강화학습 기반 포트폴리오 최적화와 결합하는 방향을 제시한다.