스펙트로그램 기반 다중모달 융합으로 보는 원자재 가격 예측

본 논문은 원자재 가격 시계열을 Morlet 웨이브렛 스펙트로그램으로 변환하고, Vision Transformer와 전통적인 Transformer를 각각 적용한 뒤 양쪽의 특징을 양방향 교차‑Attention으로 융합하는 SEMF 모델을 제안한다. 실험 결과, 7개의 최신 베이스라인 대비 다중 예측 지평선에서 일관된 성능 향상을 달성하였다.

저자: Soyeon Park, Doohee Chung, Charmgil Hong

스펙트로그램 기반 다중모달 융합으로 보는 원자재 가격 예측
본 논문은 원자재 가격 예측이라는 복합적인 금융 시계열 문제에 대해, 시간‑주파수 특성을 살린 스펙트로그램과 다변량 외생 변수라는 두 가지 정보를 동시에 활용하는 새로운 모델인 Spectrogram‑Enhanced Multimodal Fusion(SEM​F)를 제안한다. 서론에서는 원자재 시장이 거시경제 지표, 정책 변화, 지정학적 사건 등 다양한 외부 요인에 민감하게 반응하며, 비정상적·비선형적인 변동성을 보이는 점을 강조한다. 기존 LSTM·GRU와 같은 순환 신경망은 단기 패턴은 포착하지만 장기·다중 스케일 동역학을 충분히 모델링하지 못하고, 전통적인 통계 모델(ARIMA, Prophet)은 외생 변수와 복합 상관관계를 다루기 어렵다. 최근 이미지‑기반 접근법이 시계열을 시각화해 컴퓨터 비전 모델을 적용했지만, 주파수 해상도가 부족해 금융 데이터의 급격한 변동을 포착하지 못한다는 한계가 있다. 이를 해결하기 위해 저자는 Morlet 웨이브렛을 이용해 목표 시계열을 스펙트로그램으로 변환한다. Morlet은 복소 가우시안 윈도우와 정현파를 결합해 시간·주파수 해상도를 동적으로 조절할 수 있어, 고주파에서는 순간 변동을, 저주파에서는 장기 사이클을 동시에 드러낸다. 변환된 스펙트로그램은 로그 진폭을 정규화하고, 패치 단위로 나눈 뒤 Vision Transformer(ViT)에 입력한다. ViT는 패치 임베딩, 위치 인코딩, 다중 헤드 셀프‑어텐션을 통해 지역적·전역적 주파수 패턴을 학습하고, CLS 토큰을 통해 전체 스펙트럼을 요약한다. 동시에 외생 변수(미국 국채 금리, 달러 인덱스, 주요 주가지수 등)는 RevIN(역전 인스턴스 정규화)으로 개별 스케일을 맞춘 뒤, 전통적인 Transformer 인코더에 투입한다. 이 인코더는 자기‑어텐션을 활용해 변수 간 상호작용, 지연 효과, 장기 의존성을 포착한다. 두 모달리티의 특징을 결합하기 위해 양방향 교차‑Attention 융합 모듈을 설계했다. 스펙트럼 임베딩이 Query, 외생 임베딩이 Key·Value 역할을 수행하고, 반대로도 교차 연결함으로써 주파수 도메인과 시계열 도메인 간 상관관계를 동시 학습한다. 이 과정에서 각 모달리티가 보유한 고유 정보를 유지하면서, 상호 보완적인 정보를 효과적으로 통합한다. 최종 통합 표현은 다중 지평선(1, 3, 7, 14, 21, 35일) 예측을 위한 디코더에 전달되며, 손실 함수는 전체 지평선에 대한 평균 제곱 오차(MSE)를 최소화한다. 실험은 금, 원유, 니켈, 알루미늄 네 가지 원자재를 대상으로 수행되었으며, 비교 대상은 LSTM, GRU, Transformer 기반 시계열 모델, Prophet, ARIMA, 그리고 이미지‑기반 ViT·CNN 모델을 포함한 7개 베이스라인이다. 평가 지표는 MAE, RMSE, MAPE이며, SEMF는 모든 지표에서 평균 3~7%의 상대적 개선을 보였다. 특히 장기(21·35일) 예측에서 변동성에 강인한 성능을 나타냈으며, 다중 지평선 간 예측 일관성도 향상되었다. 논문의 주요 기여는 다음과 같다. 첫째, Morlet 웨이브렛을 활용해 비정상적 금융 시계열을 시간‑주파수 이미지로 변환함으로써 다중 스케일 정보를 보존하였다. 둘째, Vision Transformer와 전통적인 Transformer를 각각 스펙트럼과 외생 변수에 적용해 모달리티별 최적화된 특징 추출을 구현하였다. 셋째, 양방향 교차‑Attention을 통한 융합으로 두 모달리티 간 상호작용을 효과적으로 학습하였다. 넷째, 다중 지평선·다중 태스크 학습 프레임워크를 도입해 단기·장기 예측의 일관성을 확보하였다. 한계점으로는 스펙트로그램 생성에 소요되는 계산 비용이 높아 실시간 트레이딩 시스템에 바로 적용하기 어려울 수 있다는 점, 그리고 외생 변수의 결측이나 비동기적 업데이트에 대한 처리 방안이 충분히 논의되지 않았다는 점을 들 수 있다. 향후 연구에서는 경량화된 시간‑주파수 변환(예: 파라메트릭 스펙트럼), 결측 데이터 보강, 그리고 교차‑Attention 구조의 변형(예: 계층적 혹은 멀티‑헤드 가중치 공유) 등을 탐색함으로써 모델의 효율성과 적용 범위를 확대할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기