숫자에서 프롬프트로 경량 시계열 예측을 위한 인지 상징 전이 메커니즘
초록
본 논문은 연속적인 시계열 데이터를 인간 인지 구조를 모방한 5단계 상징 토큰으로 양자화하고, 전이 가중치와 주기성 탐지를 결합한 Symbolic Transition Mechanism(STM)을 제안한다. STM은 기존 소형 언어 모델(SLM)의 백본을 그대로 유지하면서 입력 프롬프트에 구조화된 상징 정보를 추가함으로써, 메모리와 연산량은 거의 변하지 않으면서 MAE는 최대 69%, MSE는 최대 90%까지 개선한다. 실험은 네 가지 SLM과 두 개의 공개 시계열 데이터셋에서 수행되었으며, GPU 메모리 증가 0.06%, 지연 시간 증가 0.64%라는 경량성을 입증한다.
상세 분석
본 연구는 시계열 예측에 LLM을 적용하는 기존 접근법이 높은 연산·메모리 비용으로 경량 환경에 부적합하다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 저자들은 인간의 인지 제한인 ‘Miller’s law(7±2)’에 기반한 5단계 상징화(scaling) 방식을 채택한다. 연속값을 A~E 다섯 개의 기호로 균등 양자화함으로써, 데이터의 정밀도를 크게 손실 없이 텍스트 토큰 형태로 변환한다. 이 과정은 단순히 압축이 아니라, 언어 모델이 학습한 인간 언어 패턴과 일치하는 의미 단위로 재구성한다는 점에서 혁신적이다.
다음으로 전이 기반 가중치(Transition‑Based Weighting) 모듈은 인접 기호 간 차이를 거리 기반 가중치로 강조한다. 급격한 변동(예: 온도 급등·급락)이나 레벨 쉬프트가 발생하면 해당 전이가 높은 가중치를 부여받아 프롬프트에 명시적으로 표시된다. 이는 기존 LLM이 수치 변동을 암묵적으로 추론해야 하는 부담을 경감시킨다.
주기성 탐지(Periodicity Detection) 단계에서는 시계열의 반복 패턴을 자동으로 식별하고, 해당 구간에 추가 가중치를 부여한다. 이는 계절성·주기성 요소가 강한 데이터에서 장기 예측 정확도를 크게 끌어올린다. 저자들은 이 세 가지 모듈을 하나의 파이프라인으로 결합해, SLM에 별도의 파라미터 튜닝이나 재학습 없이 입력 프롬프트만을 변형하는 ‘플러그인’ 형태로 구현하였다.
실험 설계는 네 가지 대표적인 SLM(Phi‑3.5‑mini‑instruct, Llama‑3.2‑1B, DeepSeek‑Coder‑1.3B, Gemma‑2B‑it)과 두 개의 공개 시계열 데이터셋(예: 전력 소비, 기상 데이터)을 사용했다. 각 모델‑K(양자화 레벨) 조합에 대해 MAE·MSE를 측정했으며, K=5가 대부분의 경우 최적 성능을 보였다. 특히, STM을 적용한 경우 평균 MAE 감소율이 45% 이상, MSE 감소율이 70% 이상에 달했다. 리소스 측면에서는 GPU 메모리 사용량이 기본 모델 대비 0.06%만 증가했고, 추론 지연도 0.64% 미만으로 경량성을 유지했다.
이 논문의 핵심 기여는 (1) 인간 인지 모델을 기반으로 한 상징 양자화 설계, (2) 전이와 주기성을 명시적으로 강조하는 프롬프트 엔지니어링, (3) 기존 SLM을 그대로 활용하면서도 예측 정확도를 크게 향상시킨 경량 플러그인 구조이다. 또한, 상징 레벨 수에 대한 정량적 탐색을 통해 5단계가 인지·언어 모델 양쪽 모두에 최적임을 실증하였다. 향후 연구에서는 다중 변수 시계열, 비정형 시계열, 그리고 실시간 스트리밍 환경에 STM을 적용해 볼 여지가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기