효율적인 시계열 파운데이션 모델 Reverso: 제로샷 예측을 위한 경량 설계
초록
Reverso는 긴 컨볼루션과 선형 RNN(DeltaNet) 레이어를 교차 배치한 하이브리드 구조로, 0.2 ~ 2.6 백만 파라미터 규모의 작은 모델임에도 대규모 트랜스포머 기반 시계열 파운데이션 모델과 동등하거나 우수한 제로샷 예측 성능을 달성한다. 데이터 증강·합성 데이터 생성, GiftEval 4.5 M 시계열 사전학습, 그리고 효율적인 디코더 설계 등을 통해 성능‑효율성 파레토 프론티어를 크게 앞당긴다.
상세 분석
본 논문은 “대규모가 곧 성능”이라는 기존 시계열 파운데이션 모델(TSFM) 패러다임에 근본적인 의문을 제기한다. 핵심 아이디어는 트랜스포머의 복잡한 어텐션 연산을 포기하고, 시계열 특성에 최적화된 두 가지 시퀀스‑믹싱 연산을 번갈아 적용하는 것이다. 첫 번째는 FFT 기반의 긴 컨볼루션으로, 입력 차원 d에 대해 depth‑wise separable convolution을 수행한다. 커널 길이를 전체 시퀀스 길이 L로 설정함으로써 O(d L log L)의 서브쿼드라틱 복잡도를 유지하면서 장기 의존성을 포착한다. 두 번째는 DeltaNet이라는 선형 RNN 변형이다. Query‑Key‑Value 형태의 선형 변환에 β ∈ (0,1) 스케일링을 적용해 상태 전이를 효율적으로 업데이트하고, 양방향 정보를 위해 이전 레이어의 마지막 타임스텝을 현재 레이어의 초기 상태에 더한다. 이러한 “state‑weaving” 전략은 기존 SSM·Mamba 계열보다 파라미터가 적음에도 불구하고 충분한 표현력을 제공한다.
채널‑믹싱은 전통적인 트랜스포머와 동일하게 4배 확장 후 ReLU 활성화를 거치는 MLP를 사용한다. 이는 복잡한 GLU·Gated Linear Attention보다 구현이 간단하면서도 성능 손실이 거의 없음을 실험적으로 확인했다. 디코더는 입력 전체에 선형 변환을 적용해 p = 48 길이의 쿼리를 만든 뒤, 동일 차원의 키·밸류와 어텐션을 수행한다. 작은 모델에서는 위치 임베딩이 불필요하지만, 2.6 M 파라미터 버전에서는 sin‑cos 위치 임베딩이 약간의 이득을 제공한다.
학습 데이터는 GiftEval 사전학습 세트를 활용한다. 이 데이터는 4.5 M 시계열, 230 B 포인트로 구성돼 있지만, 데이터셋 간 불균형이 심각하다. 저자는 각 서브셋트당 최대 100 k 샘플을 추출하도록 stride를 동적으로 조정하고, 한 시계열당 최대 48개의 샘플을 제한해 과샘플링을 방지한다. 데이터 증강 파이프라인은 다운샘플링, 진폭 변조, x·y 축 플립, 검열(censor) 및 mixup을 순차적으로 적용한다. 또한, Gaussian Process 기반 KernelSynth를 이용해 다양한 커널(합성·곱셈)과 트렌드·계절·불규칙성을 결합한 합성 시계열을 생성해 학습 다양성을 크게 확대한다.
실험 결과, 0.2 M 파라미터 모델인 Reverso‑S는 기존 1 B 파라미터 트랜스포머 대비 MAE 기준 5 ~ 10 % 개선을 보이며, 추론 속도는 100배 이상 빠르다. 2.6 M 파라미터 버전은 최고 성능을 기록하면서도 메모리 사용량과 연산량이 기존 모델의 1 % 수준에 머문다. 이러한 결과는 “큰 모델이 반드시 좋은 모델은 아니다”는 결론을 뒷받침한다. 또한, 저자는 복잡한 어텐션 대신 FFT‑컨볼루션·DeltaNet 조합이 시계열 장기 의존성 학습에 충분히 강력함을 실증한다.
전반적으로 Reverso는 (1) 하이브리드 시퀀스‑믹싱 설계, (2) 체계적인 데이터 균형·증강·합성 전략, (3) 경량 디코더 구조라는 세 축을 통해 파라미터 효율성을 극대화하면서도 제로샷 예측 성능을 유지한다. 이는 실무에서 비용·시간 제약이 큰 시계열 예측 시스템에 바로 적용 가능한 실용적 파운데이션 모델로 평가될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기