비트코인 가격 예측을 위한 베이지안 회귀와 잠재 소스 모델 활용
본 논문은 기존 이진 분류에 적용돼 온 베이지안 회귀·잠재 소스 모델을 실수값 예측 문제에 확장한다. 2014년 OKCoin 거래소의 2초 간격 비트코인 데이터(200 M 건)를 10초 간격으로 집계하고, 30·60·120분 길이의 과거 시계열을 패턴으로 클러스터링한 뒤, 가중 평균 방식으로 향후 10초 가격 변동을 추정한다. 예측값과 호가량 비율을 선형 결합해 거래 신호를 생성하고, 단순 롱·숏 포지션 전략을 실행한다. 실험 결과 50일 동안…
저자: Devavrat Shah, Kang Zhang
본 논문은 베이지안 회귀와 ‘잠재 소스 모델(latent source model)’을 활용해 비트코인 가격 변동을 예측하고, 이를 기반으로 간단하지만 실효성 있는 트레이딩 전략을 설계한다. 먼저, 베이지안 회귀의 전통적 비판점인 파라미터 공간 선택 문제를 잠재 소스 모델로 재구성한다. 모델은 K개의 잠재 소스 s₁…s_K와 각 소스의 사전 확률 μ_k, 그리고 출력 y의 조건부 분포 P_k를 가정한다. 실제 데이터에서는 소스와 μ_k, P_k를 알 수 없으므로, 저자들은 경험적 커널 가중치(식 4)와 이를 이용한 조건부 기대값(식 6·7)를 도입한다. 여기서 가우시안 커널 대신 정규화된 상관계수 기반 유사도 s(a,b)를 사용해 계산 복잡도를 크게 낮추었다.
데이터는 2014년 2월부터 7월까지 OKCoin 거래소에서 수집한 2초 간격 주문서와 가격 데이터(총 2억 건)이다. 계산 효율성을 위해 10초 간격으로 집계했으며, 전체 시계열을 30분, 60분, 120분 길이의 세 구간(S₁, S₂, S₃)으로 나누어 각각 180, 360, 720 차원의 벡터로 변환한다. 각 구간에 대해 k‑means 클러스터링(100클러스터) 후 가장 효과적인 20개 클러스터를 선택하고, 클러스터 중심을 패턴 후보로 삼는다.
예측 단계에서는 현재 시점의 관측값 x와 각 패턴 x_i 사이의 유사도 exp(c·s(x,x_i))를 가중치로 사용해 (7)식에 따라 세 구간 각각에 대한 평균 가격 변동 Δp₁, Δp₂, Δp₃을 계산한다. 동시에 호가량 비율 r = (v_bid−v_ask)/(v_bid+v_ask)를 구해, 선형 결합 Δp = w₀ + Σ_{j=1}^{3} w_j Δp_j + w₄ r 로 최종 변동을 추정한다. 여기서 w₀…w₄는 과거 데이터에 대한 최소제곱 회귀로 학습된다.
트레이딩 전략은 매우 직관적이다. Δp가 사전 정의된 임계값 t보다 크면 현재 포지션이 0 이하일 경우 롱(+1 비트코인) 포지션을 잡고, Δp가 -t보다 작으면 현재 포지션이 0 이상일 경우 숏(-1 비트코인) 포지션을 잡는다. 그 외에는 포지션을 유지한다. 포지션은 -1, 0, +1 로 제한해 과도한 레버리지를 방지한다.
실험은 전체 데이터를 3등분하여 패턴 추출, 파라미터 학습, 성능 평가에 각각 할당하였다. 테스트 기간은 2014년 5월 6일부터 6월 24일까지이며, 다양한 t값에 대해 거래 횟수, 평균 보유 시간, 거래당 평균 수익을 분석했다. t를 증가시킬수록 거래 횟수는 감소하고 보유 시간은 늘어나며, 거래당 평균 수익은 상승하는 전형적인 트레이드‑오프가 관찰되었다. 최적 t에서 총 2 872건의 거래가 발생했고, 평균 투자액 3 781위안 대비 최종 수익 3 362위안(≈ 89 % 수익률)을 기록했다. Sharpe 비율은 4로, 위험 대비 높은 성과를 보였다. 또한, 변동성이 큰 구간에서 전략이 특히 높은 수익을 창출했으며, 가격이 하락하는 구간에서도 손실을 최소화하는 모습을 보였다.
논문은 결과를 시각화한 Figure 1·2·3을 통해 임계값에 따른 거래 특성 변화를, Figure 4를 통해 클러스터링된 패턴(‘삼각형’, ‘머리와 어깨’ 등)을 제시한다.
하지만 몇 가지 비판점이 있다. 첫째, 데이터가 2014년 중국 시장에 국한돼 있어 현재 글로벌 비트코인 시장에 대한 일반화가 제한적이다. 둘째, 거래 비용(수수료, 슬리피지)을 무시했으며, 실제 시장에서는 수익률이 크게 감소할 가능성이 있다. 셋째, 클러스터링 및 유사도 함수의 하이퍼파라미터(c, K 등)의 선택 과정이 상세히 기술되지 않아 재현성이 떨어진다. 넷째, 베이지안 회귀와 잠재 소스 모델의 성능을 딥러닝 기반 시계열 예측 모델과 비교하지 않아 상대적 우위를 판단하기 어렵다. 마지막으로, 모델이 과거 가격 패턴에만 의존하므로 급격한 외부 충격(규제 변화, 해킹 등)에 대한 대응력이 부족하다.
결론적으로, 베이지안 회귀와 잠재 소스 모델을 실시간 금융 시계열에 적용한 본 연구는 이론적 기여와 실용적 가치를 동시에 제공한다. 향후 연구에서는 다중 자산 포트폴리오, 비정형 데이터(뉴스, 소셜 미디어)와의 융합, 강화학습 기반 포지션 관리와 결합함으로써 전략의 견고성을 높이고, 다양한 시장 환경에서의 일반화 가능성을 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기