시간 시계열 분류를 위한 합성 데이터와 테스트‑타임 전략으로 제로샷 격차를 메우다
초록
MantisV2는 합성 시계열 데이터(CauKer)로 사전학습한 경량 트랜스포머 인코더와, 중간 레이어 활용·자기‑앙상블·다중 모델 임베딩 융합을 포함한 테스트‑타임 파이프라인을 제안한다. UCR·UEA·HAR·EEG 등 4대 벤치마크에서 기존 TSFM보다 높은 제로샷 정확도를 달성했으며, 합성 데이터가 실제 데이터와 동등하거나 더 좋은 일반화 능력을 보임을 입증한다.
상세 분석
본 논문은 시계열 분류용 파운데이션 모델의 제로샷 성능을 크게 향상시키는 세 가지 핵심 기법을 제시한다. 첫째, Xie et al. (2025)이 공개한 CauKer 프레임워크를 이용해 100 k~2 M 규모의 합성 시계열을 생성하고, 이를 전용 대비학습(Contrastive Learning) 목표인 Random Crop‑Resize(RCR)와 함께 사전학습한다. 합성 데이터는 실제 데이터와 달리 OOD 특성을 갖으며, 다양하고 균일한 임베딩 공간을 형성하도록 유도한다는 점에서 기존 실데이터 기반 사전학습보다 효율적이다. 실험 결과, 100 k 합성 샘플만으로도 79 % 수준의 제로샷 정확도를 달성했으며, 1.89 M 실데이터 대비 0.4 % 정도만 뒤처진다.
둘째, 원래 Mantis의 토큰 생성 유닛을 세부적으로 재구성한다. 원시 시계열, 1차 차분, 패치‑단위 평균·표준편차를 각각 256‑차원 컨볼루션·통계 인코더로 변환한 뒤, 32개의 토큰으로 압축한다. 토큰 수를 고정(32)하고 입력 길이를 512로 표준화함으로써 self‑attention 연산의 O(N²) 복잡도를 제어하고, 파라미터 수를 30 % 감소시켰음에도 성능이 향상된다. 또한, 클래스 토큰과 RoPE(또는 sinusoidal) 위치 인코딩을 적용해 전역 정보를 효과적으로 집계한다.
셋째, 테스트‑타임에 중간 레이어 출력을 활용하고, 입력에 작은 노이즈를 가한 자기‑앙상블(self‑ensembling) 및 서로 다른 백본(예: Vision Transformer)에서 추출한 임베딩을 concatenation‑fusion 하는 전략을 도입한다. 이 과정은 사전학습이나 파인튜닝 없이도 임베딩의 견고성을 크게 높이며, 특히 데이터가 적은 상황에서 제로샷 정확도를 2~3 % 포인트 끌어올린다.
종합하면, 합성 데이터 기반 사전학습, 경량화된 토큰‑트랜스포머 설계, 그리고 풍부한 테스트‑타임 변형·융합 전략이 상호 보완적으로 작용해 기존 TSFM(예: TS2Vec, T‑Loss) 및 최신 자기‑지도 모델을 능가한다. 또한, 공개된 HuggingFace 체크포인트와 CauKer‑2M 데이터셋을 통해 재현 가능성을 확보했으며, 향후 멀티채널 시계열이나 도메인‑특화 어댑터와의 결합 가능성을 열어두었다.
댓글 및 학술 토론
Loading comments...
의견 남기기