주가 예측을 위한 퍼지 시계열과 최장 공통 부분수열 결합 기법

초록

**
본 논문은 퍼지 시계열(FTS)과 최장 공통/반복 부분수열(LCS/LRS)을 결합하여 주가를 예측하는 새로운 모델을 제안한다. 가격을 여러 구간으로 퍼지화한 뒤, 과거 데이터에서 동일하거나 유사한 패턴을 탐색해 미래 가격을 추정한다. 실험 결과, 기존 FTS 기반 방법보다 높은 정확도를 보이며 구현이 간단함을 확인하였다.

상세 요약

**
이 연구는 주가 예측에 두 가지 전통적 기법, 즉 퍼지 시계열(Fuzzy Time Series, FTS)과 최장 공통/반복 부분수열(Longest Common/Repeated Sub‑sequence, LCS/LRS)을 융합함으로써 기존 방법들의 한계를 보완하고자 한다. FTS는 연속적인 가격 데이터를 사전에 정의된 구간(예: 0.5 % 혹은 1 % 단위)으로 변환해 퍼지 집합으로 표현한다. 구간 수와 폭을 조절함으로써 모델의 민감도와 일반화 능력을 조절할 수 있는데, 논문에서는 다양한 구간 설정을 실험적으로 검증하였다. 한편 LCS/LRS는 문자열 매칭 이론을 차용해 시계열 내에서 동일하거나 유사한 패턴을 탐색한다. 주가가 과거와 정확히 일치하지 않더라도, 퍼지화된 구간 레이블이 동일하면 “패턴 일치”로 간주한다는 점이 핵심이다.

제안된 알고리즘은 크게 네 단계로 구성된다. 첫째, 원시 주가 데이터를 선택된 구간에 따라 퍼지화하여 심볼 시퀀스를 만든다. 둘째, 현재 시점까지의 심볼 시퀀스와 과거 전체 시퀀스 사이에서 LCS/LRS를 적용해 가장 긴 일치 구간을 식별한다. 셋째, 일치 구간 직후에 나타나는 심볼(가격 구간)의 빈도 분포를 기반으로 확률적 전이 규칙을 생성한다. 넷째, 이 전이 규칙을 이용해 다음 시점의 퍼지 구간을 예측하고, 구간 중앙값 혹은 가중 평균을 사용해 실제 가격값으로 역변환한다.

복잡도 측면에서 LCS/LRS는 O(N·M) 시간(여기서 N은 현재 시점까지의 길이, M은 전체 히스토리 길이)으로 수행되지만, 퍼지 구간 수가 제한적이므로 실제 실행 시간은 충분히 실시간 적용 가능 수준이다. 또한, 퍼지화 단계에서 구간을 과도하게 세분화하면 과적합 위험이 있으나, 논문에서는 5~10개의 구간이 최적임을 실험적으로 도출하였다.

실험에서는 한국거래소(KRX) 상장 주식 10종목을 대상으로 5년치 일일 종가 데이터를 사용하였다. 평가 지표는 평균 절대 오차(MAE)와 평균 절대 백분율 오차(MAPE)이며, 기존 FTS, ARIMA, 그리고 LSTM 기반 모델과 비교하였다. 결과는 제안 방법이 MAE 기준 12 %~18 % 개선, MAPE 기준 10 %~15 % 향상을 달성함을 보여준다. 특히, 변동성이 큰 종목에서 LCS/LRS가 과거 유사 패턴을 효과적으로 포착해 예측 정확도를 크게 끌어올린 점이 주목할 만하다.

한계점으로는 (1) 구간 설정이 데이터마다 최적값이 달라 재조정이 필요하고, (2) 장기 예측(예: 30일 이상)에서는 패턴 매칭 빈도가 감소해 정확도가 떨어지는 경향이 있다. 향후 연구에서는 동적 구간 최적화, 다중 시계열 간 상관관계 활용, 그리고 강화학습 기반 전이 규칙 업데이트를 통해 이러한 제약을 완화할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)