패치포머: 계층적 마스크 재구성과 교차 도메인 전이 학습을 통한 제로샷 다중 시계열 예측

패치포머: 계층적 마스크 재구성과 교차 도메인 전이 학습을 통한 제로샷 다중 시계열 예측
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

패치포머는 시계열을 다중 스케일 패치로 토큰화하고, 계층적 마스크 재구성 및 대비 학습을 결합한 자기지도 사전학습을 수행한다. 크로스‑도메인 지식 증류와 경량 어댑터를 이용해 다양한 분야에 제로샷·소량 학습으로 고성능 예측을 제공한다. 24개 벤치마크에서 평균 MSE를 27.3% 감소시키고, 기존 모델 대비 94% 적은 학습 데이터로 동일 수준의 성능을 달성했다.

상세 분석

패치포머는 기존 시계열 트랜스포머가 직면한 O(L²) 복잡도와 도메인 의존성을 동시에 해결하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 계층적 패치 토크나이제이션은 기본 패치 길이 P₁을 16으로 두고, 2배씩 확대된 P₂=32, P₃=64(베이스) 혹은 P₁=32, P₂=64, P₃=128(라지)으로 다중 스케일 시퀀스를 생성한다. 각 스케일에서 얻은 임베딩을 학습 가능한 가중치 αₖ로 가중합하고, 업샘플링을 통해 동일 차원으로 정렬함으로써 짧은 패치가 포착하는 미세 변동과 긴 패치가 포착하는 장기 트렌드를 동시에 학습한다. 이 구조는 토큰 수를 L/P 로 감소시켜 메모리와 연산을 O(L²/P²) 로 축소하면서도, 다중 해상도 정보를 보존한다는 장점이 있다.

둘째, 대비 마스크 재구성(Contrastive Masked Reconstruction) 은 두 단계 손실을 결합한다. 동적 마스크 비율 pₘ = p_base·(1+β·σ/µ)⁻¹ 로 시계열의 변동성에 따라 마스크 강도를 조절해, 변동성이 큰 구간에서는 마스크 비율을 낮추어 학습 안정성을 높인다. 마스크된 패치를 복원하는 L_rec 은 L2 손실이며, 동일 시계열에 대해 두 가지 랜덤 변형(시간 뒤틀기, 노이즈 추가)으로 얻은 표현 z₁, z₂ 사이의 대비 손실 L_con 을 InfoNCE 형태로 적용한다. λ_con=0.1 으로 두 손실을 균형 있게 결합함으로써, 로컬 패치 복원 정확도와 글로벌 시계열 일관성을 동시에 강화한다.

셋째, 교차 도메인 지식 증류(Cross‑Domain Knowledge Distillation) 는 사전학습 단계에서 다수의 도메인 전용 교사 모델(Tₖ)을 활용한다. 학생 모델은 각 도메인 교사의 예측 분포 ˆY(tₖ)와 KL 발산을 최소화하는 L_distill 을 학습한다. λ_distill=0.5 로 설정해 교사 신호를 충분히 반영하면서도 자체 재구성 목표를 유지한다. 이 과정은 도메인 간 일반화 능력을 크게 향상시켜, 사전학습만으로도 타깃 도메인에서 제로샷 예측이 가능하도록 만든다.

전이 단계에서는 어댑터(Adapter) 모듈 을 도입한다. 입력 임베딩에 작은 차원(d_bottleneck = d_model/16)으로 압축‑확장하는 두 개의 선형 층을 삽입하고, 전체 파라미터 중 2~5%만 업데이트한다. 이를 통해 대규모 사전학습 파라미터를 그대로 유지하면서도, 소량의 라벨 데이터(500 샘플)만으로도 기존 베이스라인 수준에 도달한다.

실험에서는 24개 데이터셋(날씨, 에너지, 교통, 금융, 의료)을 대상으로 87 B 포인트(≈100 B) 규모의 사전학습을 수행했다. 제로샷 설정에서 PatchFormer‑Base 가 평균 MSE 0.262 를 기록했으며, 이는 TimeGPT 대비 15.7%, Chronos 대비 19.8% 개선된 수치다. 또한 사전학습 데이터 양을 0.3 B→100 B 로 확대했을 때 MSE 가 로그 선형적으로 감소하는 스케일링 법칙(MSE = 0.412 − 0.045·log₁₀N, R²=0.97)을 확인했다.

계산 효율성 측면에서는 패치 기반 토큰화 덕분에 512‑길이 입력에 대해 3.4 ms(≈3.8×)의 추론 시간을 달성했으며, FLOPs 역시 기존 트랜스포머 대비 약 30% 절감했다. 결손 데이터 실험에서는 30% 누락 상황에서도 성능 저하가 15.7%에 그치며, 경쟁 모델은 44~47% 수준으로 크게 뒤처졌다.

한계점으로는 현재 확률적 예측(분포 출력)과 불확실성 정량화가 제한적이며, 멀티모달(예: 이미지·텍스트와 결합) 확장은 아직 구현되지 않았다. 또한 동적 마스크 비율에 사용된 통계량(σ, µ) 계산이 전체 시계열에 대해 전역적으로 수행돼, 실시간 스트리밍 환경에서는 추가 최적화가 필요할 것으로 보인다.

전반적으로 PatchFormer는 계층적 패치 토크나이제이션, 대비 마스크 재구성, 교차 도메인 증류, 경량 어댑터라는 네 가지 혁신을 결합해, 대규모 사전학습 기반 제로샷 시계열 예측의 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기