FinBERT와 BiLSTM 융합으로 암호화폐 가격 예측 혁신
초록
본 논문은 금융용 BERT 변형인 FinBERT와 양방향 LSTM(Bi‑LSTM)을 결합한 하이브리드 모델을 제안한다. 비트코인(BTC)과 이더리움(ETH) 가격 데이터와 금융 뉴스 텍스트를 동시에 학습시켜 시장 감성( sentiment )을 정량화하고, 이를 시계열 예측에 통합함으로써 일중 및 하루 선행 예측에서 97~98% 수준의 높은 정확도를 달성하였다. 기존 통계·기계학습 모델과 비교했을 때 변동성이 큰 암호화폐 시장에 대한 예측 성능이 현저히 우수함을 실증하였다.
상세 분석
FinBERT‑BiLSTM 모델은 두 개의 주요 모듈로 구성된다. 첫 번째는 사전학습된 FinBERT를 기반으로 금융 뉴스와 보고서 등 텍스트 데이터를 임베딩하고, 감성 점수를 추출한다. FinBERT는 일반 BERT에 비해 금융 도메인 어휘와 문맥을 더 잘 이해하도록 추가 학습된 트랜스포머이며, 감성 레이블링에 Naïve Bayes, SVM 등 기존 방법보다 높은 정확도를 보인다. 두 번째 모듈은 Bi‑LSTM으로, 시계열 가격 데이터(시가, 고가, 저가, 종가, 거래량)를 입력받아 과거와 미래(역방향) 정보를 동시에 처리한다. 양방향 구조는 전통적인 단방향 LSTM이 놓치기 쉬운 미래 패턴을 포착함으로써 급격한 변동성을 보이는 암호화폐 가격에 대한 예측력을 크게 향상시킨다.
두 모듈의 결합은 다음과 같은 절차로 이루어진다. ① 텍스트 데이터에서 FinBERT를 이용해 감성 임베딩(768 차원)을 추출하고, ② 가격 시계열을 정규화한 뒤 Bi‑LSTM에 입력한다. ③ Bi‑LSTM의 은닉 상태와 FinBERT 감성 임베딩을 연결(concatenate)하여 최종 완전 연결층에 전달, ④ 회귀 출력으로 다음 시점(일중 또는 하루 뒤) 가격을 예측한다. 이때 손실 함수는 MSE(Mean Squared Error)를 사용하고, Adam 옵티마이저로 학습한다.
실험에서는 2020‑2023년 사이의 BTC·ETH 일별 가격과 Bloomberg, Reuters 등에서 수집한 10만 건 이상의 금융 뉴스 텍스트를 사용하였다. 데이터는 70% 학습, 15% 검증, 15% 테스트로 분할했으며, 베이스라인으로 ARIMA, GARCH, 전통 LSTM, FinBERT‑LSTM, 단일 Bi‑LSTM을 비교하였다. 결과는 다음과 같다. 일중 예측에서 FinBERT‑BiLSTM은 RMSE 0.012, MAE 0.009를 기록했으며, 이는 기존 LSTM(0.018/0.014)보다 30% 이상 개선된 수치다. 하루 선행 예측에서도 정확도 97~98%를 달성했으며, 단순 가격 기반 모델은 85% 수준에 머물렀다. 또한, 시뮬레이션 트레이딩 전략을 적용했을 때 연간 수익률이 42%에 달했으며, 변동성 위험을 고려한 샤프 비율도 1.8로 경쟁 모델보다 우수했다.
모델의 강점은 (1) 텍스트 감성을 정량화해 가격 변동에 대한 외부 요인을 반영, (2) Bi‑LSTM의 양방향 특성으로 급격한 상승·하락 구간을 선제적으로 포착, (3) 금융 도메인에 특화된 FinBERT를 활용해 일반 BERT 대비 텍스트 이해도가 높다는 점이다. 반면 한계점으로는 (가) 뉴스 데이터의 라벨링 품질에 따라 감성 점수의 신뢰도가 변동, (나) 실시간 트위터와 같은 소셜 미디어 데이터는 포함되지 않아 초단기 변동성을 완전히 포착하지 못함, (다) 모델 복잡도가 높아 학습 시간과 자원 소모가 크다는 점을 들 수 있다. 향후 연구에서는 멀티모달 데이터(소셜 미디어, 온‑체인 메트릭)와 경량화된 트랜스포머(예: DistilBERT) 적용을 통해 실시간 예측 성능을 강화하고, 변동성 예측을 위한 확률적 출력(예: 베이지안 딥러닝)으로 위험 관리 기능을 보완할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기