주가 예측을 위한 LSSVM ABC 최적화 모델
초록
본 논문은 인공벌집(ABC) 알고리즘을 이용해 최소제곱 서포트 벡터 머신(LSSVM)의 하이퍼파라미터를 최적화하고, 이를 통해 S&P 500에 속한 20개 종목의 일일 주가를 예측하는 모델을 제안한다. ABC는 전역 탐색 능력이 뛰어나 과적합과 지역 최적해에 빠지는 문제를 완화한다. 제안 모델은 기존 PSO‑LSSVM, 순수 LSSVM, 인공신경망(ANN)과 비교했을 때 수렴 속도가 빠르고 예측 정확도가 전반적으로 우수함을 실험 결과로 입증한다.
상세 분석
본 연구는 두 가지 핵심 기술을 결합한다. 첫 번째는 최소제곱 서포트 벡터 머신(LSSVM)이다. LSSVM은 전통적인 SVM과 달리 라그랑주 승수를 최소제곱 형태로 변환함으로써 해석적 해를 얻을 수 있어 학습 속도가 빠르고 대규모 데이터에 적용하기 용이하다. 그러나 LSSVM의 성능은 커널 함수 선택과 정규화 파라미터(γ), 오류 허용 파라미터(σ) 등 하이퍼파라미터에 크게 좌우된다. 이 파라미터들을 부적절하게 설정하면 과적합이나 과소적합이 발생해 예측 정확도가 급격히 떨어진다.
두 번째는 인공벌집 군집(Artificial Bee Colony, ABC) 알고리즘이다. ABC는 탐색(Employed Bee), 관찰(Onlooker Bee), 그리고 탐색(Scout Bee) 세 단계로 구성된 확률적 메타휴리스틱으로, 탐색 단계에서 전역 최적해를 찾는 능력이 뛰어나며 파라미터 튜닝에 대한 사전 지식이 거의 필요하지 않다. 논문에서는 ABC를 이용해 LSSVM의 γ와 σ를 동시에 최적화한다. 구체적으로, 초기 식민지는 무작위로 γ와 σ 값을 할당받은 후보 해 집합으로 시작하고, 각 단계에서 피트니스 함수는 검증 데이터셋에 대한 평균 제곱 오차(MSE)를 최소화하도록 설계된다.
실험 설계는 S&P 500에 포함된 20개 기업의 일일 종가와 5일 이동 평균, 거래량, RSI 등 10개의 기술 지표를 입력 변수로 사용한다. 데이터는 2015년~2020년 구간을 학습·검증·테스트(7:2:1)로 분할하였다. 비교 대상은 (1) PSO‑LSSVM, (2) 기본 LSSVM(그리드 서치 기반 파라미터), (3) 다층 퍼셉트론(MLP) ANN이다. 성능 평가는 MSE, MAE, 그리고 결정계수(R²)로 수행하였다.
결과는 ABC‑LSSVM이 평균 MSE 0.0012, MAE 0.028, R² 0.96을 기록하며, PSO‑LSSVM(0.0018, 0.035, 0.92) 및 기본 LSSVM(0.0025, 0.042, 0.88)보다 현저히 우수함을 보여준다. ANN은 비선형 특성을 어느 정도 포착했지만, 과적합 위험으로 테스트 단계에서 성능이 급격히 저하되었다. 또한 수렴 곡선을 살펴보면 ABC는 30세대 이내에 최적 해에 근접했으며, PSO는 60세대, 그리드 서치는 수십만 조합을 탐색해야 하는 비효율성을 드러냈다.
이러한 결과는 ABC가 파라미터 탐색 공간을 효율적으로 샘플링하고, LSSVM의 구조적 장점과 결합될 때 주가와 같은 비선형, 잡음이 많은 시계열 데이터에 대해 높은 일반화 능력을 제공한다는 점을 시사한다. 다만, 본 연구는 20개의 종목에 한정된 실험이며, 장기 예측(30일 이상)이나 고빈도 데이터에 대한 적용 가능성은 추가 검증이 필요하다.